IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WSX46L 'Deep Learning' : attention, vos appareils vous observent 'Deep Learning' : attention, vos appareils vous observent Geek 'Deep Learning' : attention, vos appareils vous observent par Anne Lods Quel est le lien entre votre compte Instagram et les voitures autonomes ? Le Deep Learning. Monstre de technologie, il est à l’origine de nombreux progrès scientifiques. Pour tout comprendre, on a demandé à la data-scientist Alexia Audevart de nous éclairer. Temps de lecture 4 minutes Publié le Jeudi 3 Janvier 2019 Vous êtes-vous déjà demandé comment votre smartphone repérait les visages sur votre écran ? Ou comment Google Translate traduisait vos devoirs d’anglais ? Grâce à un seul et même procédé : le Deep Learning. Vous en avez peut-être entendu parler à la sortie des enceintes connectées, qui s'invitent dans tous les foyers et qui en sont équipées. C'est l’une des principales techniques d’intelligence artificielle utilisées aujourd’hui et, à en croire le scientifique spécialisé Andrew NG, il s’invitera bientôt dans tous les appareils qui peuvent se connecter à l’électricité. Qu’est-ce que c’est ? Tout d’abord, il faut savoir que le vaste univers de l’intelligence artificielle est composé en partie d’un processus appelé le Machine Learning. Il s’agit d’une technique d’apprentissage dédiée aux machines. A partir de plusieurs informations qu’on lui livre, l’ordinateur apprend à effectuer une tâche. Exemple : si Netflix sait vous recommander un film à 98%, ce n’est pas parce qu’il vous observe, vous, votre double-menton et votre pyjama en pilou pilou par la webcam, mais bien grâce à cette technique. Même principe avec votre fil d’actualité , où la machine cible des informations qui pourraient vous intéresser plus que d’autres à partir de données qu’on lui a fournies. Le Deep Learning, quant à lui, est un sous-ensemble du Machine Learning. Plus complexe, cette technologie permet de traiter de plus grandes quantités de données que les algorithmes classiques issus du Machine Learning, et son modèle n’est autre que le cerveau humain. D’après la data-scientist Alexia Audevart, qui a animé dernièrement une conférence à ce sujet au Salon de la Data de Nantes, le Deep Learning est une modélisation mathématique, inspirée du fonctionnement du cerveau. Elle permet de reproduire certaines caractéristiques humaines, comme la capacité de mémoire, d’apprentissage et de traitement d’informations complexes. L’objectif est donc de simuler l’intelligence humaine, dans et grâce à une machine. Et le but est que la machine apprenne toute seule… [giphy.gif] Mais Jamy, dans quoi l’utilise-t-on ? Aujourd’hui, comme nous le rappelle Alexia Audevart, même notre compte Gmail est équipé de Deep Learning. Voyez les réponses automatiques qu’on vous propose à la fin de vos mails, c’est bien lui. Les procédés de traduction automatiques viennent également du Deep Learning, tout comme les techniques de reconnaissance faciale de différentes applis disponibles sur smartphone. Néanmoins, cette intelligence est aussi utilisée dans le développement de technologies plus spectaculaires et notamment en médecine où elles sont parfois plus efficaces que l’homme. Grâce à l’imagerie (images 3D et radiologie), certaines pathologies comme le cancer du sein sont plus facilement diagnostiquées et donc soignées. Dans un tout autre domaine, le Deep Learning pourrait aussi aider à lutter contre les fake news, mais aussi servir à la littérature. Si des livres ont récemment été traduits entièrement par des intelligences artificielles, certains ont même été entièrement écrits par celles-ci. C’est ce que nous apprend le média Les Influences. Ross Goodwin, un créateur d’intelligences artificielles aurait déposé une caméra sur le toit d’une voiture, reliée à un GPS, un micro et une horloge. Puis, lors d’un voyage entre la Louisiane et New York, guidée par un conducteur, l’IA aurait écrit une histoire, s’inspirant de tout ce qu’elle voyait. Impressionnant. Puis, enfin, on le sait, ce sont ces mêmes voitures qui sont amenées à devenir autonomes et ce, grâce au Deep Learning. Comme il permet de comprendre de quoi est composée une image dans toute sa complexité, il pourrait rapidement remplacer l’homme au volant. Dangers, piétons, feux, autres véhicules, tout doit être passé au crible par la voiture, comme vous pouvez le voir dans la vidéo ci-dessous. What the #AI sees: an example of an object detection #Algorithms HT evankirstelSpirosMargaris evankirstel andi_staub mclynd diioannid ipfconline1 JacBurns_Comext LouisSerge jerome_joffre HaroldSinnott kalydeoo ahier Ym78200 sallyeaves rajat_shrimal HITpol pic.twitter.com/xqroFPCWCS — Jean-Baptiste Lefevre (jblefevre60) 28 novembre 2018 Cependant, pour l’instant les techniques ne sont pas encore tout à fait au point. En mai dernier, une Américaine a été tuée, percutée par un Uber sans conducteur en période d’essai. Deux chauffeurs de Tesla ont également trouvé la mort en roulant sous pilote automatique ces trois dernières années. Des accidents qui servent malheureusement à la recherche, puisque comme l’explique Alexia Audevart, ce qui est intéressant c’est de "comprendre comment la machine apprend, aussi pour ne pas qu’elle devienne un monstre". Car si de telles erreurs inspirent d’excellents scénarii de films de science-fiction, ce sont des choses qu’on ne veut pas voir se reproduire dans la vraie vie - à l'image de iRobot ou de Her (où Joaquin Phoenix tombe amoureux d'une IA). Par ailleurs, d’après le site Clubic, l’un des pères du Deep Learning, Yoshua Bengio, aurait d’ailleurs déclaré qu’il s’opposait à l’idée que l’IA puisse servir le domaine militaire. "Nous devons rendre immoral le fait d'avoir des robots tueurs", a-t-il précisé. Et on n’aurait pas dit mieux … Pour que ce soit encore plus clair, on vous conseille cette vidéo de David Louapre. IFRAME: https://www.youtube.com/embed/trWrEWfhTVg Six choses à savoir sur Jameela Jamil, la vraie star de "The Good Place" Six choses à savoir sur Jameela Jamil, la vraie star de "The Good Place" L'époque en live Cinq choses à savoir sur Jameela Jamil, la vraie star de "The Good Place" par Dan Hastings #publisher IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WQX772B Quel est le meilleur traducteur automatique en ligne et gratuit ? Un test effectué sur 12 applications de traduction automatique en ligne et gratuites. Sur le site redaction.be, Jean-Marc Hardy nous a offert en avril dernier les résultats d'un exercice fort utile : la comparaison des traducteurs automatiques en accès libre. Il a soumis à 12 applications en ligne de traduction automatique 25 fragments de texte en anglais, en demandant une traduction vers le français. Les textes comprenaient 267 erreurs possibles, selon l'estimation de J. M. Hardy. Les résultats de ce test devraient être lus par tous les élèves et étudiants qui se déchargent volontiers de leurs rédactions en langues étrangères sur ces outils providentiels. Car aucune application n'a réussi le sans-faute. Google traduction arrive en tête du classement, car c'est l'application qui possède la plus grosse base de données linguistiques, compte-tenu du nombre des utilisateurs des produits Google. Néanmoins, le résultat est loin d'être parfait. J.M. Hardy ne se contente pas de rendre compte de la correction linguistique des résultats fournis par ces applications. Pour chacune d'elle, il analyse l'ergonomie de l'espace de travail : taille des fenêtres de texte, espace consacré aux publicités, accès aux commandes. Là encore, c'est Google traduction qui obtient les meilleurs résultats, grâce à son interface dépouillée, sa rapidité et ses fonctions originales. Conclusion : on évitera d'accorder toute sa confiance à un seul outil de traduction automatique... et on se tournera en priorité vers Google traduction si l'on ne craint pas de voir ensuite ses données réutilisées par le monstre Google. Deuxième test. Et le gagnant est... Néanmoins, en dépit de la rigueur avec laquelle a été réalisé ce test, dont tous les résultats détaillés sont accessibles, il faut bien admettre que Google Traduction n'est pas systématiquement meilleur que les produits concurrents. Nous nous sommes nous aussi livré à un petit test comparatif, beaucoup plus bref que celui d'Hardy. Nous avons pour cela utilisé le portail La Traductrice, qui permet de choisir le service de traduction automatique que l'on souhaite utiliser. Nous avons donc soumis le même fragment de texte en anglais à 5 services de traduction automatique et gratuite en ligne : Google traduction, Yahoo Babel Fish, Reverso, World Lingo et Linguatec. Nous avons demandé une traduction vers le français. Le texte source était extrait d'une entrevue avec Mitchell Baker (l'une des créatrice de Firefox), publiée sur le site Wired. M. Baker y évoque, dans un langage courant, la situation de monopole dans laquelle se trouvait Microsoft Explorer avant l'apparition de Firefox : Consumers were interested in getting to the web and the only way to get there was through this tool, which was insecure — one of the most risky pieces of software you could put on your machine! A vector for all sorts of terrible stuff for which there was no competition. And for which there was no rational economic model for competition. On constate d'emblée que la difficulté de traduction ici ne tient pas au vocabulaire employé, mais à la syntaxe de l'anglais, qui ne peut évidemment être reproduite telle quelle en français. Voici les résultats du test, classés par traducteur : Google traduction : Les consommateurs étaient intéressés à obtenir sur le Web et la seule façon d'y arriver était grâce à cet outil, qui était l'insécurité? l'une des pièces les plus risquées de logiciels que vous pourriez mettre sur votre machine! Un vecteur de toutes sortes de choses terribles pour lesquels il n'y avait pas de concurrence. Et pour laquelle il n'y avait pas de modèle économique rationnel pour la compétition. Yahoo Babel Fish : Les consommateurs étaient intéressés à obtenir au Web et la seule manière d'y arriver était par cet outil, qui était peu sûr - un des morceaux de logiciel les plus risqués que vous pourriez mettre dessus votre machine ! Un vecteur pour toutes les sortes de substance terrible pour lesquelles il n'y avait aucune concurrence. Et pour ce qui là n'était aucun modèle raisonnable pour la concurrence. Reverso : Les consommateurs se sont intéressés à l'obtention au Web(tissu) et la seule façon d'arriver il y avait par cet outil, qui était peu sûr - une des pièces les plus risquées de logiciel vous pourriez mettre votre machine! Un vecteur pour toutes sortes du truc(de la substance) épouvantable pour lequel il n'y avait aucune compétition(concurrence). Et pour lequel il n'y avait aucun modèle économique raisonnable pour la compétition(concurrence). World Lingo : Les consommateurs étaient intéressés à obtenir au Web et la seule manière d'y arriver était par cet outil, qui était peu sûr - un des morceaux de logiciel les plus risqués que vous pourriez mettre dessus votre machine ! Un vecteur pour toutes les sortes de substance terrible pour lesquelles il n'y avait aucune concurrence. Et pour ce qui là n'était aucun modèle raisonnable pour la concurrence. Linguatec : Les consommateurs s'intéressaient à parvenir à la toile et la seule façon pour y parvenir était par cet outil, qui était incertain - un de les la plupart des morceaux risqués de logiciel que vous pourriez mettre sur votre machine! Un vecteur pour toutes les sortes de truc terrible pour lequel il n'y avait aucune compétition. Et pour lequel là aucun modèle économique rationnel, n'était-il pour la compétition. Le traducteur humain ! En lisant chacune de ces propositions, on comprend certes le sens, mais on comprend aussi qu'il est impossible d'utiliser la traduction telle quelle. Le début du texte en particulier, a tenu en échec tous les traducteurs automatiques : aucun n'a été en mesure de traduire "getting to the web" par "accéder à la toile". Idéalement, il faudrait extraire les meilleurs passages de chaque proposition pour recomposer un texte relativement acceptable. Puis effectuer une très sérieuse correction de la syntaxe et du vocabulaire, pour que le texte final semble enfin rédigé en un français courant, comme le texte source qui, rappelons-le, transcrit une conversation orale. Mais plutôt que de réaliser toutes ces laborieuses opérations, ne vaut-il pas mieux traduire soi-même le passage, surtout si l'on doit le soumettre à un professeur ou aux lecteurs de son site Internet ? Traducteurs en ligne : le comparateur 2012. Jean-Marc Hardy, redaction.be, avril 2012. Illustration : capture d'écran réalisée sur World Lingo. IFRAME: https://www.facebook.com/plugins/like.php?app_id=185405388177653&hr ef=https%3A%2F%2Fcursus.edu%2Farticles%2F24810%2Fquel-est-le-meille ur-traducteur-automatique-en-ligne-et-gratuit&send=false&layout=but ton_count&width=450&show_faces=false&action=like&colorscheme=light& font&height=21 IFRAME: https://platform.twitter.com/widgets/tweet_button.5069e7f3e4e64c1f4 fb5d33d0b653ff6.fr.html nal_referer=https%3A%2F%2Fcursus.edu%2Farticles%2F24810%2Fquel-est- le-meilleur-traducteur-automatique-en-ligne-et-gratuit&size=m&text= Quel est le meilleur traducteur automatique en ligne et gratuit ?&time=1511276420031&type=share&url=https%3A%2F%2Fcursus.edu%2Farti cles%2F24810%2Fquel-est-le-meilleur-traducteur-automatique-en-ligne -et-gratuit La traduction automatique va-t-elle faire disparaître la traduction humaine ? IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-MDNXV82 La traduction automatique va-t-elle faire disparaître la traduction humaine ? Lorsque l’on évolue loin de l’univers de la traduction, il est très difficile de percevoir la différence entre toutes les technologies existantes. Quel avenir pour les traducteurs professionnels dans ce monde où les buzz words du moment sont “big data” et “intelligence artificielle” ? Nous vous proposons dans cet article de décrypter les outils de traduction automatique. __________________________________________________________________ Accélérer à l’international grâce à la technologie : les technologies indispensables __________________________________________________________________ Les bénéfices de la traduction automatique Les technologies de traduction automatique se sont considérablement améliorées, notamment grâce au deep learning (une méthode d’apprentissage automatique par le biais de “neurones”). Les traductions automatiques ne sont plus uniquement basées sur les statistiques (probabilité de traduction d’un mot selon l’analyse de milliers de textes). On pense aux plus grands, Google Translate ou encore Reverso, qui permettent aujourd’hui de comprendre facilement un petit texte en langue étrangère en quelques clics. Ils peuvent être d’une grande aide car gratuits et instantanés, ils fournissent une base de compréhension de texte. On notera que la traduction automatique est de plus en plus souvent intégrée dans les outils de notre quotidien, que cela soit sur , Google Chrome, TripAdvisor, Skype mais aussi dans des outils destinés aux professionnels. L’instantanéité est en effet son atout majeur. Prenons l’exemple des logiciels utilisés par les services client : l’intégration de Google Translate permet aux conseillers de comprendre en temps réel le message qui lui a été adressé et ainsi d’orienter le client vers la bonne personne (un client insatisfait qui demande à être remboursé, une demande de renseignement sur un produit, une information sur le programme fidélité). Cela assure un temps de traitement et ainsi une qualité de service similaire, et ce quelque soit la langue utilisée par le client. La traduction automatique est également idéale dans le cadre d’un voyage à l’étranger, que cela soit pour gérer les aspects pratiques de réservation d’un logement, lire les panneaux de signalisation ou encore déchiffrer la carte d’un restaurant. Nous vous invitons à découvrir l’appli Android lancée il y a 2 ans, qui permet une traduction visuelle en temps réel : IFRAME: https://www.youtube.com/embed/06olHmcJjS0?feature=oembed Dans un cadre de compréhension globale, pour donner une idée générale du contexte et du sens d’une phrase ou d’un texte bref et peu complexe, la traduction automatique est donc parfaitement adaptée. Mais pour le reste, malgré les progrès technologiques et les efforts de recherche et développement, elle conserve de grandes limites pour l’appliquer dans un univers professionnel. Les écueils de la traduction automatique Nous ne le redirons jamais assez, la précision et la qualité sont des aspects clés de la traduction. Trois éléments sont inéluctables : le contexte mais aussi le sens du paragraphe ou encore le style. Laissez moi vous raconter une petite anecdote, il y a quelques mois l’une de mes amies, américaine, publiait une photo de son bébé avec un grand sourire sur et indiquait en légende “Charlie, cheese!”. Traduction de : “Charlie, du fromage !”… Nul doute qu’elle voulait employer le terme “Cheese” pour “Sourire”. Charlie, Cheese! Nous sommes dans un univers privé, l’enjeu n’est donc pas conséquent. Mais lorsqu’il s’agit d’un contexte professionnel, ce genre de malentendu peut avoir de lourdes conséquences sur la réputation de votre marque et donc sur votre chiffre d’affaires. Le mot anglais « mug » peut se traduire par « tasse » en français, mais il peut aussi signifier « agresser ». Imaginez le contresens qu’il pourrait y avoir pour un e-commerçant utilisant exclusivement un moteur de traduction automatique. En tant que français, nous sommes bien placés pour savoir qu’un mot peut avoir plusieurs sens. Une enquête Shotfarm de 2016 a montré que 40% des cyberconsommateurs abandonnent leur panier à cause de mauvaises descriptions des produits^1 ; par ailleurs, ¼ d’entre eux rendra des articles reçus s’ils ne sont pas fidèles aux informations de la fiche produit. La qualité du descriptif produit et la pertinence des traductions est donc indispensable. Il y a quelques années, les moteurs de traduction ne traduisaient qu’une suite de mots, désormais ils sont capables de traduire des phrases entières. Mais quid de deux phrases à la suite ou encore d’un paragraphe ? Comme l’explique le directeur de recherche au CNRS François Yvon dans un article du Monde, “un tas de phénomènes linguistiques s’étendent sur plusieurs phrases. […] De l’anglais vers le français, on ne sait pas traduire le “it” en “il” ou “elle”. Car l’information peut remonter trois ou quatre phrases en arrière. C’est difficile, car il faut mémoriser des informations à grande distance.” Dans un texte, les phrases ne sont pas indépendantes les unes des autres : le style et les informations sont dispersées. Sans mémorisation de ce genre d’informations, il est donc impossible d’obtenir une traduction automatique pertinente. La technologie au service de la traduction humaine Quand on sait qu’un natif professionnel traduira environ 2.000 mots par jour, la traduction automatique est incontestablement la meilleure en terme de réactivité. Mais vous l’aurez compris, il parait très risqué de confier sa traduction professionnelle uniquement à un robot : les coûts d’une mauvaise traduction, parfois invisibles, sont pourtant bien réels : taux de retour plus élevé (pour le e-commerce), mauvaise réputation, non professionnalisme, insatisfaction des clients… La traduction humaine est certes plus coûteuse que la traduction automatique, mais sa qualité est infiniment supérieure, et l’impact d’une bonne traduction est considérable : meilleur taux de conversion, fidélisation des clients, meilleur référencement naturel sur les différents marchés… Toutefois, selon nous, il n’y a pas de guerre entre la traduction automatique et la traduction humaine. Elles sont tout simplement complémentaires : la traduction automatique permet de réduire drastiquement le temps passé sur une traduction, et donc d’optimiser les coûts. Elle peut fournir une base aux traducteurs professionnels, qui pourront ainsi retravailler le texte, le reformuler, le styliser, et surtout l’adapter au contexte et aux consommateurs des pays concernés. ^1 http://www.eweek.com/small-business/online-shoppers-blanch-at-inaccurate-prod uct-descriptions Grâce à TextMaster, vous disposez de la puissance d’un réseau de traducteurs experts certifiés et des meilleurs outils d’aide à la traduction pour vous garantir la meilleure réactivité et les meilleurs tarifs tout en conservant le plus haut niveau de qualité. Demandez votre devis de traduction en cliquant-ici. L'intelligence artificielle au service de la traduction automatique L'intelligence artificielle au service de la traduction automatique Source image: Google Pour se rapprocher de la perfection, les outils de traduction automatique incorporent à leurs algorithmes des mécanismes de plus en plus proches de la réflexion humaine. Longtemps, les résultats des outils de traduction automatique étaient plus drôles qu'utiles. Phrase incohérente, contresens et autres approximations ne permettaient pas une traduction fluide. Mais les progrès rapides de l'intelligence artificielle sont en train de changer la donne. Disponible en 103 langues, soit 99% de celles parlées dans le monde, Google Translate est le fer de lance de cette révolution. Utilisé par 500 millions d'internautes chaque mois, le service fête aujourd'hui ses dix ans et entre dans une ère nouvelle. Depuis mi-novembre, Google Neural Machine Translation (GNMT) a intégré à son application, pour réduire les erreurs de traduction à un taux variant entre 55 % et 85 %. Cette technologie basée sur les réseaux neuronaux informatiques est conçue pour répliquer le cerveau humain. Il ne considère plus les phrases mot à mot mais dans leur globalité, pour les traduire le plus fidèlement possible. Responsable monde de Google Translate, Barak Turovsky voit en cette innovation la troisième phase de rupture pour la traduction automatique. Son équipe, basée à Mountain View (Californie), est constituée d'une cinquantaine d'ingénieurs et chercheurs qui collaborent avec l'équipe Google Brain de Zurich. «En dix ans, nous sommes progressivement passés de la traduction mot-à-mot, utile mais hachée et imprécise, à une traduction basée sur des fragments de phrases, le Phrase-Based Machine Translation (PNMT). Le Google Neural Machine Translation (GNMT) permet aujourd'hui une approche plus globale de la traduction», explique-t-il au Figaro. «La précision de celles réalisées grâce à cette technologie se rapproche progressivement de celle des humains.» Neuf langues sont pour le moment concernées par le GNMT: l'anglais, le français, l'allemand, l'espagnol, le portugais, le chinois, le japonais, le coréen, et le turc. L'outil est donc utile pour plus d'un tiers de la population mondiale, et 35% des requêtes traitées par Google Translate. Des règles linguistiques auto-apprises Si le passage de Google au GNMT a été remarqué, le groupe n'est pas le seul à se pencher sur les promesses des réseaux neuronaux. «Un grand nombre d'entreprises spécialisées dans la traduction développent actuellement un outil de Neural Machine Translation», indique François Massemin, vice-président des Opérations de SYSTRAN, une entreprise française qui lance un moteur traduction neuronal avec plus de trente langues. À chacun sa spécialité néanmoins. Le moteur de SYSTRAN privilégie la spécialisation. «Nous alimentons nos algorithmes de la terminologie des domaines d'activité de nos clients, qu'il s'agisse de l'automobile, de l'industrie, de la chimie ou encore du tourisme. Ils s'entraînent et auto-apprennent à partir de corpus spécifiques et des segments de phrases préalablement traduits par un humain.» Parmi les clients de SYSTRAN, des grandes entreprises, dont PSA, Adobe, Symantec ou la Société Générale, mais aussi des services de renseignement avides de connaître la teneur des messages échangés en ligne. Google et ses concurrents se gardent bien de livrer la recette de leurs moteurs neuronaux. «Une nouvelle génération de puces [les TPU, ndlr] et des algorithmes sont combinés pour les faire fonctionner», détaille à peine Barak Turovsky. «Ces puces jouent un grand rôle dans la vitesse de traduction. Au lancement de Google Translate par moteurs neuronaux, celle-ci était 100 fois plus lente qu'aujourd'hui», spécifie-t-il. Si les technologies d'analyse ont changé, l'approche des données recueillies sur Internet pour alimenter les algorithmes est toujours la même. «Même il y a dix ans, au lancement de Google Translate, nos algorithmes s'alimentaient de textes traduits trouvés sur Internet, en parcourant le Web. Parmi les documents analysés, des livres mais aussi des articles ou le contenu des déclarations des Nations Unies», rapporte Barak Turovsky. IFRAME: https://www.youtube.com/embed/_GdSC1Z1Kzs De ces textes sont déduits des modèles statistiques à répliquer lors d'une traduction. Les réseaux neuronaux ont cela de particulier qu'ils pourront apprendre par eux-mêmes. Autre innovation majeure, ils pourront bientôt traduire une langue à partir d'autres. «Imaginons que l'on dispose de données entre l'anglais et le japonais, entre l'anglais et le coréen mais pas entre le coréen et le japonais. Le modèle multi-langues nous permettra, une fois lancé, de faire une traduction directe entre le coréen et le japonais, alors même que l'algorithme n'a pas été entraîné à traduire entre ces deux langues.» En d'autres termes, Google crée une autre langue, baptisée à de nombreuses reprises «interlangue», pour traduire deux langues sans qu'on lui ait appris. Ce concept est aussi appelé «zero-shot». Une avancée que les chercheurs qualifient eux-mêmes de «surprenante» et qui évite l'intégration laborieuse de données. De nouvelles expériences de traduction Considérables, les progrès de Google Translate ces dix dernières années n'empêchent pas, à l'occasion, l'occurrence d'erreurs de traduction, parfois étonnantes. Début 2016, certaines traductions de l'ukrainien vers le russe donnaient pour résultat le mot «Mordor» pour Ukraine, ou «occupant» pour russe, probablement sous le coup d'une manipulation humaine. Pour ces cinq prochaines années, Barak Turovsky envisage trois pistes essentielles de travail: conquérir davantage d'utilisateurs, développer de nouvelles expériences de traduction, à l'image de WordLense qui traduit automatiquement le contenu texte de photos, ou de Tap to Translate, qui s'intègre aux applications pour accélérer le passage d'une langue à l'autre lors de discussions entre étrangers. Mais aussi, continuer à améliorer la qualité de la traduction. Pour ce faire, il considère la contribution humaine permise par les outils de Google Translate «plus utile que jamais». «Il y a deux ans, certains ressortissants du Kirghizistan ont réclamé l'intégration du kirghize à Google Translate, mais nous n'avions pas assez de données sur cette langue. Nous leur avons indiqué qu'ils devraient pour cela réaliser la traduction et la validation de deux millions de phrases, ce qui semblait impossible. Mais le message a été repris par le gouvernement et, très rapidement, nous avons pu dénombrer 200.000 traductions par jour. Leur langue a finalement été rendue disponible.» IFRAME: https://www.youtube.com/embed/4xtEp55MKRE L'intérêt de SYSTRAN pour les langues les plus rares est restreint à des pratiques de surveillance. «Nous sommes attentifs au développement de langues telles que l'arabizi et le rusizi», notre François Massemin. «Elles concernent ceux qui parlent l'arabe et le russe mais ne sont pas en mesure de l'écrire en alphabet arabe ou cyrillique. Ces langues intéressent beaucoup les services secrets.» À terme, la comparaison entre une traduction humaine et automatique relèvera essentiellement de la qualité du style. traduction automatique Innovations Questions & débats L’intelligence artificielle au service de la traduction automatique de contenus 09/06/201709/06/2017 Rédaction 3694 Views Google Traduction, intelligence artificielle, Lingua et Machina, Media Do, nouvelles technologies, réseaux neuronaux, Systran, traduction automatique La traduction automatique est un secteur en constante progression, soutenue par le développement de l’intelligence artificielle. Une technologie en particulier semble être appelée à connaître un développement important à l’avenir : la traduction à partir de réseaux neuronaux. Une firme japonaise, Media Do, a d’ailleurs récemment mis cette technologie en pratique. Lettres Numériques vous embarque dans un tour d’horizon des tendances existantes et des progrès en cours. Il existe de nombreux outils de traduction automatique, sur lesquels plusieurs entreprises travaillent, notamment les géants Microsoft et Google mais également des entreprises françaises comme Systran (dont vous pouvez déjà admirer les progrès via la version bêta de son logiciel) et Lingua et Machina. Si les deux premières s’adressent avant tout aux utilisateurs lambda, Systran vise plutôt les entreprises, tandis que Lingua et Machina se consacre principalement à la traduction de contenus complexes dans le domaine de la recherche. Un communiqué récemment publié sur le site de Lingua et Machina, qui comprend notamment une interview d’Étienne Monneret, son Chef de Projets et Développements Informatiques, nous éclaire sur le sujet. Lingua et Machina Trois modèles de traduction Les modèles de traduction automatique peuvent être classés selon trois approches. La traduction à base de règles fonctionne grâce à l’application de règles à divers niveaux d’analyse linguistique (lexicale, syntaxique et grammaticale). Elle intègre la gestion d’un très grand nombre de cas particuliers et d’exceptions. Les textes ainsi produits sont cohérents, mais finalement peu adaptés à des éléments trop spécialisés. La traduction statistique se base quant à elle sur une analyse statistique d’un grand volume d’exemples déjà traduits. Elle identifie les transformations de groupes de mots, d’une langue vers une autre, pour reproduire celles estimées les plus probables sur les nouvelles phrases à traduire. La traduction par ce modèle est adaptée à des contenus spécifiques, mais s’avère peu fluide. Enfin, la traduction neuronale (ou neurale) repose sur des algorithmes neuronaux. L’idée principale de ce troisième système est de ne plus fonctionner par mot ou expression, comme c’est le cas pour les deux autres modes de traduction, mais de considérer chaque phrase comme un bloc à traduire. La formulation des phrases ainsi traduites est plus naturelle, et les erreurs de grammaire et de syntaxe sont bien moins courantes. Concrètement, pour déterminer le sens de la phrase, l’outil passe par chaque mot, puis en pondère le sens pour choisir la traduction la plus juste et les réorganiser pour produire une phrase cohérente dans la langue désirée. Le moteur utilise ainsi l’intelligence artificielle et apprend, toujours à partir d’un grand volume d’exemples, à traduire par le biais d’un réseau neuronal. De nombreux avantages… C’est ce dernier modèle de traduction automatique que prône la société Lingua et Machina. D’après Étienne Monneret, la firme a très vite perçu l’intérêt de cette approche. « Grâce à la complémentarité de nos technologies, les performances de la traduction automatique s’améliorent à mesure qu’elle est alimentée avec de nouveaux contenus […]. Plus le nombre de traductions réalisées augmente, plus la qualité et la fluidité se rapprochent de la qualité d’une traduction humaine. » L’autre avantage de cette technologie réside dans les économies substantielles en termes de coût et de temps : « un traducteur professionnel peut travailler jusqu’à deux à trois fois plus vite en maintenant une haute qualité de traduction. » Google_traduction_neuronale La traduction neuronale est aussi le modèle plébiscité par Google, Microsoft et Systran. La première étant convaincue que son avenir est dans l’intelligence artificielle, elle cherche à intégrer cette technologie dans beaucoup de ses projets. C’est ainsi que fin 2016, Google annonçait dans un communiqué l’usage d’un système de réseau neuronal pour la traduction de huit langues vers et depuis l’anglais dans Google Traduction. … mais une technologie encore balbutiante Cependant, tout n’est pas encore parfait, et Google le reconnaît, comme le rapporte le site Nextinpact. « Google Neural Machine Translation (GNMT) est toujours capable d’erreurs importantes qu’un traducteur humain ne ferait jamais, comme oublier des mots, mal traduire des noms propres ou des mots inhabituels, ou encore traduire une phrase de manière isolée plutôt qu’en l’incluant dans le contexte du paragraphe ou de la page ». Du côté de Microsoft, la technologie et ses résultats sont également qualifiés de balbutiants, même si la firme de Redmond assure que les réseaux neuronaux fournissent une qualité beaucoup plus élevée ainsi qu’une production plus humaine que les autres technologies de traduction, comme le relaie le site zdnet. Une récente mise en pratique au Japon Media Do Deux entreprises basées à Tokyo sont également spécialisées dans la traduction de contenus par l’intelligence artificielle : l’Internet Research Institute et Ai Squared. C’est donc via un partenariat avec ces deux firmes que le distributeur d’ebooks japonais Media Do se lance dans la traduction automatique de contenus. D’ici la fin de l’année, la firme nippone prévoit ainsi la mise en place sur sa librairie numérique d’un service de résumé automatique, en langue japonaise. L’année prochaine, ce résumé pourra être traduit automatiquement en anglais. L’objectif à terme est la traduction automatique d’ebooks entiers du japonais vers l’anglais. En proposant ces nouveaux services, Media Do espère élargir son marché à l’international et dynamiser le marché du livre numérique au Japon, où l’édition traditionnelle ne se porte pas très bien. Les progrès de l’intelligence artificielle permettent un développement dans de nombreux secteurs, et la traduction automatique ne fait pas exception, comme en témoigne l’enthousiasme des différentes entreprises qui y travaillent. La traduction neuronale semble ainsi promise à un bel avenir. De multiples usages sont en effet envisageables pour cette technologie, on imagine par exemple l’outil très avantageux qu’elle pourrait constituer pour le monde de l’édition, comme l’illustre le cas de Media Do. Le développement de l’intelligence artificielle ne manque par ailleurs pas de soulever des questions quant à la place toujours plus réduite qu’elle accorde à l’humain. Pour l’heure, la supervision de l’homme est toujours nécessaire mais la traduction automatique pourrait-elle un jour remplacer le travail d’un traducteur humain ? Au-delà des progrès techniques de ces technologies, l’importance d’une réflexion sur ces interrogations éthiques pourrait donc se faire sentir. Peut-on se fier à la traduction automatique ? Peut-on se fier à la traduction automatique ? 09/02/18 fiabilite traduction automatique Il existe plusieurs façons de traduire d’une langue à une autre. Vous pouvez utiliser les services d’un traducteur professionnel, ce qui vous permettra d’obtenir des traductions précises, ou vous pouvez utiliser des outils technologiques, qui vous donneront des résultats…un peu moins précis. Petit papa quoi ? Récemment dans l’émission de télévision The Tonight Show Starring Jimmy Fallon, Jimmy et Rebel Wilson ont utilisé Google Translate pour traduire quelques-unes des chansons de Noël les plus emblématiques. Le résultat ? Une séquence hilarante et un exemple concret des limites de la technologie. + « Deck the Halls » (Falalalala en version française, littéralement « Décorez les murs ») est devenu « The Homes are Covered » (« Les maisons sont couvertes »). + « Jingle Bells » (Vive le vent en version française, littéralement « Tintez clochettes ») s’est tout simplement transformé en « Bells Make Sounds » (« Les cloches font du bruit »). + « Winter Wonderland » (littéralement « Paradis hivernal ») a pris une tournure sinistre et est devenu « I Ran Through the Land of Cold Unknowns » (« J’ai couru à travers le pays du froid inconnu »). On peut s’amuser des erreurs commises lors d’une traduction « brute » de chants de Noël. En revanche, il n’y a pas matière à rire quand les enjeux sont plus importants et que la précision est cruciale, comme pour les secteurs pharmaceutiques et juridiques. Répondre aux besoins des consommateurs Air New Zealand a récemment annoncé qu’elle serait l’une des premières entreprises internationales à utiliser les écouteurs Bluetooth sans fil Google Pixel Buds pour faciliter le service à la clientèle et la traduction. Le directeur général d’Air New Zealand estime que ce type de produit peut fournir « un service rapide et personnalisé » aux clients dans un « monde de plus en plus numérique. » Cela semble être un raisonnement solide et une excellente idée, mais dans quelle mesure ce service est-il véritablement rapide et personnalisé ? Pas si vite Dans l’ensemble, beaucoup d’utilisateurs sont satisfaits des performances des Google Pixel Buds. Amanda Lee, en revanche, a exprimé son mécontentement face au temps de latence requis pour la traduction : « plusieurs secondes étaient parfois nécessaires » pour recevoir la traduction, entraînant des « pauses gênantes durant les conversations. » Il convient également de noter que la terminologie des dispositifs de traduction n’est pas systématiquement à jour en termes de vocabulaire : traduit du chinois vers l’anglais, « bubble tea » s’est transformé en « boisson explosive. » Google Pixel Buds Ce que l’humanité a de meilleur à offrir Selon Business Insider, traduire d’une langue vers l’anglais offre parfois des résultats plus précis que traduire de l’anglais vers une autre langue. L’anglais étant la langue la plus parlée au monde, il est logique que les résultats soient de meilleure qualité. On peut y voir un signe révélateur de l’importance des traducteurs professionnels, qui maîtrisent davantage les aspects culturels et les nuances linguistiques de leur propre langue et peuvent ainsi fournir une traduction plus précise et naturelle. Un service personnalisé et humain Si les outils technologiques peuvent aider deux personnes ne parlant pas la même langue à communiquer, rien ne vaut l’expertise humaine. Chez ITC, nous travaillons avec les outils assistés par ordinateur les plus récents et perfectionnés, mais nous comptons sur nos traducteurs humains pour fournir le meilleur service possible. Non seulement nos traducteurs maîtrisent parfaitement leurs langues de travail, mais ce sont en plus des experts dans leur domaine de spécialisation. Que vous ayez besoin d’un traducteur coréen spécialisé dans les ressources humaines ou d’un professionnel du tourisme parlant couramment le portugais du Brésil, nous pouvons vous aider. Vous avez besoin de traductions? Contactez ITC Traductions : #Slate.fr Life La traduction automatique n'est toujours pas d'actualité Temps de lecture : 9 min Konstantin Kakaes — 26 mai 2012 à 7h01 — mis à jour le 30 mai 2012 à 7h01 Pour que la traduction automatique devienne utilisable, il faut enseigner aux machines la signification des mots. Ce qui n’est pas une mince affaire. Une ancienne machine à écrire / Nicole Lee via FlickrCC Licence by Une ancienne machine à écrire / Nicole Lee via FlickrCC Licence by Temps de lecture: 9 min Il n’y a pas très longtemps, au huitième étage d’un immeuble de bureau d’Arlington, en Virginie, Rachael, le doigt posé sur l’écran tactile d’un Dell Streak, demanda à Aziz s’il connaissait l’ancien du village. La petite tablette émit des bips comme si elle imitait R2-D2 et énonça une phrase qui ressemblait à: «Aya tai ahili che dev kali mousha.» Aziz répondit une phrase en pachtoune que le Streak traduisit d’un ton monocorde par «Oui, je connais.» Rachael demanda: «Pourriez-vous me le présenter?» mais Aziz ne comprit pas la traduction de la machine (alors qu’il parle anglais). Rachael reposa donc la question: «Pouvez-vous me présenter l’ancien du village?» Cette fois, l’opération aboutit, sans réussir tout à fait. Aziz, par le biais de la machine, répondit: «Oui, je peux me présenter à vous.» Aziz, qui doit avoir la quarantaine et portait un pull sans manche, n’était pas l’ancien du village. Le logiciel utilisé sur la tablette était la version la plus aboutie de TransTac, projet développé depuis cinq ans par la Defense Advanced Research Projects Agency (DARPA), visant à créer un système de traduction de la parole (par opposition aux systèmes basés sur des textes), et qui s’est achevé l’année dernière. Mari Maeda, manager de la DARPA qui a exécuté ce programme, explique qu’au final, TransTac atteint un taux de précision tournant autour de 80%: suffisamment pour que cela soit intéressant, mais pas assez pour être utile. Quelques dizaines d’utilisateurs l’ont essayé en Irak et en Afghanistan—outre le pachtoune, ce programme s’appliquait aussi à l’arabe et au dari—mais personne n’a été impressionné au point de vouloir le garder. Le vieux rêve de la traduction de la parole humaine par les ordinateurs Cela ne signifie pas pour autant que TransTac soit un échec. Le logiciel a entrepris une tâche très difficile: faire en sorte qu’un ordinateur écoute quelqu’un parler dans une langue, traduise ce discours dans une autre langue et le prononce à haute voix. Le rêve d’utiliser des ordinateurs pour traduire la parole humaine remonte aux tout premiers jours de l’informatique, quand les ordinateurs utilisaient encore des tubes à vide. Il s’est toujours avéré insaisissable. La DARPA n’est naturellement pas la seule organisation à financer la recherche sur ce que les informaticiens appellent la «traduction automatique» (cela comprend à la fois des systèmes de traduction/restitution de parole comme TransTac et des systèmes qui traduisent des textes écrits, problème plus simple sous certains aspects bien que les principales difficultés soient les mêmes dans les deux cas). Cette agence a cependant joué un rôle central. Le département de la Défense a dépensé presque 700 millions de dollars pour un seul contrat de traduction (pour des interprètes humains, principalement en Afghanistan) en une année, par conséquent les plus de 80 millions de dollars qu’il consacre à BOLT, le programme qui succède à TransTac, dans l’espoir d’économiser sur le budget interprètes à l’avenir, est une relativement bonne affaire. Le problème, la qualité de la traduction La question centrale au cœur de la plupart de ces projets est la suivante: comment évaluer la qualité d’une traduction? Même les humains peinent à comparer les traductions différentes d’un même texte. Cela rend le défi d’automatisation des évaluations encore plus difficile à relever. Et si vous ne savez ou ne pouvez évaluer votre niveau, il est difficile de progresser. Pendant des décennies, les chercheurs ont été incapables de programmer les ordinateurs pour qu’ils produisent des traductions utilisables. Les soldats devaient se fier à des guides de conversation proposant la prononciation phonétique des phrases («VO ist NAWR-den?» est la phrase qu’une brochure de 1943 du département de la Guerre recommandait aux GI pour demander «Où se trouve le nord?» en allemand). Le «Phrasealator,» que l’armée américaine a commencé à utiliser en 2004, n’était pas tellement plus avancé—il s’agissait essentiellement d’un guide de conversation informatisé. Mais ces dernières années la traduction automatique statistique (TAS) s’est beaucoup répandue, technique qui a énormément amélioré la qualité des traductions. Trouver l’algorithme de la traduction Plutôt que d’essayer de coder explicitement des règles de traduction d’une langue à l’autre, le but de la TAS est de faire en sorte que des algorithmes déduisent ces règles à partir de bases de données existantes constituées de textes traduits. Les plus abondantes bases de données de ce genre sont celles des textes dont la loi exige qu’ils soient traduits en plusieurs langues, comme les rapports de l’Union européenne, traduits par des humains dans les 23 langues officielles de l’UE. Et quand ces bases de données ne sont pas déjà disponibles, il faut les constituer soi-même. Pour TransTac, la DARPA l’a fait en enregistrant des sketches entre une cinquantaine de soldats et marines américains et une cinquantaine de locuteurs arabophones. Les participants ont mis en scène divers scénarios, comme la situation à un check-point ou la fouille d’une maison (en Californie, ceci dit). De nouveaux modèles à créer La principale difficulté pour la TAS est de trouver comment utiliser l’information contenue dans ces «corpus parallèles» pour construire des modèles de la manière dont fonctionne chaque langue, et de trouver comment les langues correspondent entre elles. Un modèle pour une langue donnée— l’anglais par exemple—sert à estimer le degré de probabilité pour qu’une suite de mots constitue une phrase valable («logique traduction ardoise verte» par exemple, est une suite de mot improbable). Les programmes de TAS établissent ensuite des corrélations entre les modèles de chaque langue. Généralement phrase par phrase, le programme traduit en trouvant des mots dans la langue d’arrivée qui ont à la fois une cohérence grammaticale ensemble et qui sont susceptible de bien correspondre avec leurs équivalents de la langue de départ. Pour ce faire, les modèles doivent être capables d’aligner correctement les phrases. Or, il n’y a pas nécessairement une correspondance ligne par ligne entre deux langues différentes. Si une des phrases vous déconcerte et que vous alignez systématiquement mal toutes celles qui suivent, vous obtenez des données inutilisables. Et il y a le problème de relier les mots de la langue source avec ceux de la langue cible—les mots non plus ne correspondent pas un à un, et l’ordre des mots dans la phrase peut varier de façon substantielle d’une langue à l’autre. Mais l’idée est que si vous enfournez suffisamment de données, le «bruit» de l’imperfection de l’alignement va diminuer par rapport au signal de corrélations entre la même idée exprimée en différentes langues. Dépasser les modèles statistiques L’approche statistique a transformé le domaine. Pourtant, Bonnie Dorr, responsable de programme pour
BOLT, explique que la DARPA est aujourd’hui «très déterminée à dépasser les modèles statistiques.» la raison est qu’à mesure que l’on procure de plus en plus de données parallèles aux algorithmes, «les retours que l’on obtient réduisent. Le rendement devient moins important, et les résultats atteignent un plateau, même lorsqu’on augmente le volume de données.» Au départ, cette «autre chose,» c’était la syntaxe: il fallait tâcher de faire l’analyse grammaticale de la phrase pour déterminer la fonction de chaque mot, puis tenter de faire correspondre les verbes et les noms entre eux. Cela permet de gérer des problèmes comme des ordres de mots radicalement différents. Incorporer des informations syntaxiques dans des modèles statistiques semble avoir contribué à améliorer les performances. Mais cela n’a pas aidé les chercheurs à résoudre la question de base: est-ce une bonne traduction? L’évaluation des programmes de traduction Aujourd’hui, la meilleure façon d’évaluer les programmes de traduction automatique est d’avoir recours à une métrique conçue par IBM. Cette métrique, appelée BLEU, n’est pas très performante mais elle est utile car elle est cohérente. BLEU fonctionne en comparant la traduction d’un texte particulier avec une traduction de référence du même texte, faite par un humain, et en établissant leur «proximité.» Elle le fait en fournissant un résultat composite basé sur le nombre de mots de la traduction automatique que l’on retrouve dans la traduction humaine, sur le nombre de syntagmes de deux mots qui correspondent, de trois mots, de quatre mots… (les syntagmes longs correspondant dans les deux traductions sont très rares, voire non-existants). Mais comme l'écrit Philip Koehn, éminent chercheur en traduction automatique, personne ne sait ce que signifient les résultats fournis par BLEU, et les bonnes traductions humaines obtiennent souvent des résultats à peine meilleurs au test BLEU que les traductions automatiques. Koehn donne l’exemple d’une phrase traduite du chinois. Laquelle est la meilleure: «Israël est chargé de la sécurité dans cet aéroport» ou «Les autorités israéliennes sont responsables de la sécurité aéroportuaire»? Rester fidèle au sens Ce que l’on cherche à savoir, c’est si la traduction a su rendre le sens du texte, pas si elle a utilisé les mêmes mots. La DARPA espère pouvoir créer «une métrique d’évaluation sémantique» qui mesure le degré de fidélité au sens. Une approche, déjà adoptée par la DARPA selon Dorr, consiste à avoir recours à un humain pour comparer les significations et déterminer combien de mots de la traduction automatique doivent être changés pour rejoindre le sens d’une traduction de référence. Mais ce genre d’intervention humaine est longue et onéreuse. Les métriques d’évaluation sémantique de ce type peuvent être utilisées pour vous donner une idée de vos progrès à long terme, mais elles ne servent pas à grand-chose pour modifier les paramètres de votre modèle. Pour ça, vous devez pouvoir capter le sens de façon automatique. Comprendre les phrases traduites Le sens est naturellement une cible mouvante, mais ce n’est pas une proposition dans laquelle tout est blanc ou tout est noir. Un programme n’est pas obligé d’appréhender toutes les strates de sens contenues dans une phrase comme «Je vous aime» (et il en est d’ailleurs incapable). Il peut seulement aider à déterminer que «aimer» n’est pas juste un verbe mais un mot émotionnellement chargé, et que «vous» n’est pas juste le complément de la phrase mais également la personne aimée. Cette sorte de connaissance sémantique superficielle n’est pas intéressante si vous voulez connaître la signification à un niveau plus profond. Mais c’est assez pour être potentiellement utile. Rattacher ce genre de signifiants à des mots ou à des suites de mots est appelé «étiquetage sémantique.» Ce type d’étiquetage est réalisé manuellement depuis longtemps. FrameNe, l’une des plus anciennes bases de données sémantiques, conçue par l’University of California-Berkeley, existe depuis 1997—elle compte aujourd’hui 170 000 phrases annotées à la main, comme «I’ll get even with you for this! [Je te revaudrai ça!]» Mais 170 000 phrase est un groupe de données très modeste comparé aux bases de données de textes parallèles et non étiquetés qui existent. L’objectif des initiatives de traduction sémantique actuelles est de procéder à ce genre d’étiquetage automatiquement puis d’intégrer les résultats dans des modèles statistiques. Comment coder l’ambiguïté? L’étiquetage sémantique automatique est d’une évidente difficulté. Il vous faut gérer certaines choses comme la portée des quantificateurs imprécis. Prenez la phrase «Every man admires some woman. [Tout homme admire une femme]». Il y a ici deux significations possibles. La première est qu’il existe une femme, une seule, admirée par tous les hommes. (Et cela vous donne une idée précise de l’époque de ma puberté si je vous dis que le premier nom qui me vient à l’esprit est celui de Cindy Crawford). La deuxième est que tous les hommes admirent au moins une femme. Mais comment dites-vous cela en arabe? Idéalement, vous cherchez un syntagme comportant le même niveau d’ambiguïté. L’objet de l’approche sémantique consiste à essayer de coder l’ambiguïté elle-même d’abord, plutôt que de tenter de passer directement de l’anglais à l’arabe (ou à quelque autre langue cible). Ensuite, le contexte plus large pourra aider votre algorithme à choisir comment rendre la phrase dans la langue d’arrivée. Juger la transmission du sens Une équipe de l’University of Colorado, financée par la DARPA, a construit un étiqueteur sémantique en open source appelé ClearTK. Elle évoque des difficultés, comme celle présentée par la phrase: «The coach for Manchester United states that his team will win [l’entraîneur de Manchester United déclare que son équipe va gagner].» Dans cet exemple, la suite de mots «United States» n’a pas son sens habituel. Faire en sorte qu’un programme le reconnaisse et identifie les autres bizarreries de langue est assez délicat. La difficulté de savoir si une traduction est bonne n’est pas seulement technique: elle est fondamentale. Le seul moyen durable de juger de la fidélité d’une traduction est de décider si le sens est transmis. Si vous réussissez à obtenir un algorithme capable d’en juger, alors vous avez résolu un problème vraiment très ardu. Quand un système de traduction automatique fonctionnera efficacement, si c’est un jour possible, quand il «comprendra le sens,» alors ses rouages seront un mystère pour ses créateurs, presque autant qu’ils le sont pour l’ancien du village. Cet article est extrait de Future Tense, une collaboration entre l’Arizona State University, la New America Foundation et Slate. Future Tense explore la manière dont les nouvelles technologies affectent la société, la politique et la culture. Pour en savoir plus, voyez le blog de Future Tense et sa page d'accueil. Vous pouvez aussi les suivre sur . Konstantin Kakaes Traduit par Bérengère Viennot #Traduc.com » Flux Traduc.com » Flux des commentaires Traduc.com » Traduction automatique vs traduction humaine : qui est le meilleur ? Flux des commentaires alternate alternate Traduction automatique vs traduction humaine : qui est le meilleur ? __________________________________________________________________ La traduction prend de plus en plus de sens sur Internet au vu de la profusion de contenus qui naissent chaque jour. Au cours de cette dernière décennie, le contenu digital s’est fortement développé grâce à l’intérêt des internautes et aux entreprises cherchant à répondre à cet intérêt. Le web est devenu un territoire d’expression pour tous, où de nombreux marché se créent, qu’ils soient économiques, informatif ou éducatif. Face à cette croissance, de nombreux acteurs du numérique qui souhaitent se développer sur de nouveaux territoires géographiques et culturels ont besoin d’exploiter leurs contenus existants. Pour ce faire, la traduction est la solution qu’il faut exploiter. Mais alors, Comment faire pour traduire ses contenus ? Faut-il faire confiance à l’Humain ou davantage aux machines ? Balayons les différentes possibilités. Nouveau Plateforme web de traduction professionnelle Commandez vos traductions à nos traducteurs freelances Voir la plateforme Différentes solutions existent pour la traduction Pour les besoins en traduction, de nombreuses solutions s’offrent à vous. Le choix de “la machine” Vous pouvez faire le choix de travailler avec un logiciel capable de vous assister dans la traduction de vos contenus. Dans un précédent article, nous évoquions par exemple les différents logiciels de traduction existant sur Internet, tels que Reverso ou Google Traduction. Rapides et efficients, ils vous permettent de traduire rapidement un terme ou une phrase. Nous pouvons aussi retrouver des applications mobile qui vont permettre d’obtenir une traduction instantanée à tout moment de la journée. Ces différents logiciels de traduction machine sont amenés à évoluer et à de plus en plus apprendre et contextualiser leurs traductions. Car ces traducteurs “mécaniques” possèdent le désavantage de ne pas comprendre le contexte de votre traduction et de vos contenus. Il peut ainsi être compliqué de traduire un texte dans son ensemble, un site web ou encore une brochure, tout en relatant les idées et les subtilités du contenu. Le choix de “l’humain” Pour ce faire, le choix de l’humain peut permettre de favoriser le contexte et la compréhension du texte au global. Outre le contact humain, plus chaleureux que l’échange avec une machine, vous pouvez travailler avec un traducteur indépendant ou une plateforme de traduction comme Traduc.com. Ceci permet de bénéficier d’un haut niveau de conseil dans sa traduction et d’une adaptation maximale à son besoin spécifique. Les avantages de la traduction machine Évoquons les avantages et inconvénients de la traduction machine de façon simple et condensée. Les avantages de la traduction machine La traduction machine offre divers avantages de par sa “nature d’automate” : Nouveau Plateforme web de traduction professionnelle Commandez vos traductions à nos traducteurs freelances Voir la plateforme Elle est plus rapide qu’un traducteur humain car capable de traiter instantanément une requête. Elle est moins chère, en général, qu’un traducteur humain, et plus facilement accessible (et donc rapide également). On peut y accéder en permanence, et avoir simplement accès à divers langages de traduction en un seul clic. Elle permet de conserver une forme d’objectivité par rapport à l’être humain. En effet, elle traduira une phrase toujours de la même façon, sans l’interpréter par rapport à son prisme personnel. Globalement plus économique et efficiente qu’un traducteur humain, la machine conserve certaines limites dans… sa qualité ! En effet, si quantitativement elle est capable de traiter énormément de requêtes, elle reste limitée, à l’heure actuelle, dans la qualité de sa traduction. Une traduction effectuée par un humain sera plus fidèle à la traduction d’origine, mieux intégrée dans le contexte et même dans les tendances communicationnelles du pays en question. Observons plus en détail les avantages de la traduction humaine. Les avantages de la traduction humaine Comme nous l’évoquons depuis le début de l’article, l’avantage principal dans la traduction humaine réside dans son adaptabilité et sa qualité. L’humain est capable de comprendre le contexte exact de la mission de traduction, pour qui celle-ci doit être réalisée et de quelle façon elle doit être perçue. Là où une machine ne verra qu’un ensemble de termes à traduire, le traducteur humain verra une façon de s’exprimer d’une personne ou d’une entreprise vers un autre groupe d’individus (et toutes les subtilités à faire passer ou pas). C’est là que réside la principale différence. De même que la qualité, le second avantage d’un traducteur humain est son efficacité. Paradoxalement, même si la machine est “moins coûteuse” (en général) et plus rapide dans l’exercice de traduction, elle demande la manipulation d’une personne pas forcément formée à cela. Le traducteur prend toute la mission à sa charge et restitue un document finalisé complet à son client. En ce sens, le traducteur humain est plus efficace puisqu’il libère du temps et accomplit ce qu’il doit faire de A à Z sans avoir besoin de l’intervention de son client. Vous l’aurez compris, la solution n’est ni noire ni blanche mais se situe entre les deux. Elle est en réalité dépendante de vos besoins. Pour un document qualitatif, qui doit être parfaitement traduit et qui se doit de faire passer certains messages clés à vos publics, alors vous devrez faire particulièrement attention au rendu final, et généralement travailler avec un traducteur humain. N’hésitez pas à vous inscrire dès maintenant pour pouvoir profiter de la plateforme dès son lancement. Au contraire, dans le cas de “petites missions” de traduction, pour des textes plus courts mais surtout moins importants, le recours à un traducteur machine peut-être la solution la plus efficace (au vu de son coût et de sa rapidité de réponse). #alternate alternate Tradonline, agence de traduction » Flux Tradonline, agence de traduction » Flux des commentaires Tradonline, agence de traduction » Tout sur la traduction automatique et la post-édition ! Flux des commentaires Formation e-learning : comment rentabiliser sa stratégie ? Réalité virtuelle : au cœur de Laval Virtual alternate alternate Tout sur la traduction automatique et la post-édition ! par Tradonline | Mar 20, 2018 | Nos services, Technologies | 0 commentaires Tout sur la traduction automatique et la post-édition ! La post-édition de traduction automatique est une prestation de plus en plus vendue par les agences de traduction, or tout le monde ne sait pas vraiment ni de quoi il s’agit, ni comment on se forme à cette discipline. Chères traductrices et chers traducteurs, vous trouverez quelques éléments de réponse dans cet article. Définition de la traduction automatique avec post-édition Avant toute chose, il me semble nécessaire de procéder à une petite définition des termes principaux car nous allons ensuite utiliser les termes MT (machine translation) ou PE (post-édition), et nous ne voudrions pas vous perdre en route ! Qu’entend-on par MT ? En anglais MT veut dire machine translation, ou traduction automatique en français. Un moteur de traduction automatique est un programme informatique qui va nous fournir une traduction automatique. Il existe un grand nombre de moteurs différents, tous basés sur l’intelligence artificielle, mais ce n’est pas le sujet du jour. La distance de post-édition, ou « post-edit distance » en anglais, correspond au pourcentage de modifications effectuées par un humain sur la traduction automatique afin d’obtenir une traduction de qualité suffisante. La vitesse de post-édition est un taux que nous calculons et qui permet de connaître le nombre de mots que pourra traiter un traducteur par heure, en fonction de la distance de post-édition. En d’autres termes, plus la distance de post-édition est importante, moins nous gagnerons de temps grâce à l’utilisation d’un logiciel de traduction automatique. Cette vitesse de post-édition est un élément important à calculer en amont de tout projet incluant post-édition, afin de vérifier la faisabilité du projet. Pourquoi utiliser un logiciel de traduction automatique ? La traduction automatique est une solution qui permet à certaines entreprises de publier plus de contenus dans plus de langues, plus vite et pour un coût restreint. Ce qu’il faut bien comprendre c’est que le but de la traduction automatique (MT) tout comme celui des outils de TAO est d’augmenter la productivité. Ces outils sont donc utiles dans certains cas, lorsque le volume à traduire le nécessite et si les résultats de la traduction automatique le permettent. Mais pour que ces projets de traduction automatique avec post-édition soient une réussite, il est nécessaire de faire intervenir des linguistes professionnels. Il s’agit d’une nouvelle discipline et comme toute nouveauté elle fait peur. Sachez que notre but n’est pas du tout de remplacer nos traducteurs par des machines. La traduction automatique est donc utilisée dans certains cas uniquement, selon : Les langues source et cible, Le domaine (médical, financier, etc.), Le type de contenu, Le degré de qualité attendue. À noter : les résultats d’une traduction automatique sont toujours imparfaits ! Ce qui est important c’est de pouvoir vérifier dans quelle mesure nous allons pouvoir gagner en productivité grâce à son utilisation. Chez TradOnline nous considérons que si une traduction automatique vous fait gagner moins de 30 % de votre temps, alors ça n’a pas vraiment d’intérêt. En d’autres termes, si vous traduisez en moyenne 300 mots par heure sur une traduction 100 % humaine, il faut au moins que vous puissiez traduire 400 mots par heure avec l’utilisation d’une traduction automatique. À ce stade, il est important de préciser que ce gain de temps dépendra également grandement de la qualité attendue par notre client. Mais avant tout, il faut que vous soyez dans une démarche d’ouverture d’esprit et que vous ayez envie de tester. Car oui, la PE demande une formation spécifique puisque comme vous l’avez sans doute remarqué, elle ne produit jamais un résultat parfait. Nous estimons que la traduction automatique est une tendance du marché que nous ne pouvons pas ignorer au risque d’être dépassés. C’est pourquoi nous investissons du temps sur cette nouvelle tendance et sommes prêts à vous accompagner dans cette démarche de formation. Formez-vous à la traduction automatique, ce n’est pas une perte de temps, c’est une nouvelle compétence professionnelle sur votre CV, une nouvelle corde à votre arc ! Quelle qualité est attendue en post-édition ? Les exigences de post-édition seront différentes d’un projet à un autre. Dans tous les cas, votre mission sera de répondre à ces exigences en faisant le moins de changements possible sur la traduction automatique initiale. Cette information est l’une des plus importantes, car beaucoup de traducteurs ont tendance à trop post-éditer. Pour être un bon post-éditeur, il faut donc avoir une bonne capacité d’analyse afin de prendre des décisions rapides sur chaque segment à post-éditer. Mais rassurez-vous, pour devenir un bon post-éditeur, il faut de l’entraînement ! En termes de qualité, nous vendons 2 types de prestations différentes : une post-édition partielle et une post-édition complète. Le choix de l’une ou l’autre solution dépendra de la portée du document de notre client. S’il s’agit d’un document qui doit être publié, on optera plutôt pour une post-édition complète alors que si le document doit être traduit pour une utilisation interne ou uniquement à but informatif, nous opterons pour une post-édition partielle. Quand on fait une PE partielle, on s’attache uniquement aux erreurs suivantes : contenu offensant ou culturellement inapproprié, mot manquant ou superflu, mauvaise traduction (contresens), mots mal orthographiés, erreurs de grammaire, erreurs de glossaire (si prédéfini avec le client). Pour une PE complète, il faudra corriger également toute erreur de terminologie, l’ordre des mots si nécessaire, la structure globale de certaines phrases, le style, la ponctuation et le format des chiffres. But : que le texte cible devienne fluide, naturel. Une PE complète nécessite l’utilisation d’un traducteur spécialisé dans le domaine en question, ce qui n’est pas le cas pour une PE partielle. Le but d’une PE complète est d’atteindre une qualité de traduction dite « humaine ». Rappel : cette solution convient à assez peu de projets ! Si vous manquez d’informations sur le degré de qualité attendu, vous devez absolument poser la question à votre chef de projet, car ceci détermine directement le temps que vous devrez allouer à ce travail. Quelques conseils : Ne faites pas de sur-corrections, Ayez les idées claires sur ce qu’on attend de vous, Ne passez pas trop de temps à réfléchir : de gros doutes sur un segment ? Supprimez-le et traduisez-le à nouveau ! Utilisez tous les outils à votre disposition : correcteurs orthographiques, glossaires, mémoires de traduction, outils de QA, Ne vous découragez pas, c’est en vous exerçant que vous allez devenir un(e) vrai(e) pro en post-édition ! #alternate alternate Master CAWEB » Flux Master CAWEB » Flux des commentaires Master CAWEB » L’intelligence artificielle révolutionne la traduction automatique Flux des commentaires alternate alternate L’intelligence artificielle révolutionne la traduction automatique Posté le 15 décembre 20174 décembre 2018 par Colline Marabese | Author : Colline Marabese | Localisation, Translation L’époque à laquelle nous pouvions rire des résultats maladroits des outils de traduction automatique est désormais dépassée. Le développement en puissance de l’intelligence artificielle (IA), appliquée au domaine de la traduction automatique, est en train de changer la donne. Intelligence artificielle et traduction Les avancées de la traduction automatique (TA) À l’ère du numérique et de l’intelligence artificielle, les systèmes symboliques et statistiques, dont le fonctionnement se base respectivement sur des règles linguistiques et des ensembles de textes traduits, sont presque devenus obsolètes. L’émergence de différents outils de traduction automatique, basés sur l’intelligence artificielle et les réseaux neuronaux, a marqué une étape clé dans l’évolution des outils de traduction automatique. A titre d’exemple, la traduction automatique vocale et adaptative ont de grandes chances de prendre une place prépondérante dans le domaine de la traduction dans les années à venir. La traduction automatique vocale La traduction vocale en temps réel, ou « speech-to-speech translation » (S2S), fait appel aux dernières avancées en termes d’intelligence artificielle, comme les réseaux profonds de neurones. Il est nécessaire de passer par trois étapes bien distinctes afin de traduire un discours oral dans la langue source à un discours oral vers la langue cible: La reconnaissance vocale permet de transcrire le discours oral en texte écrit, qui peut ensuite être exploité par les systèmes. La reconnaissance vocale est uniquement possible grâce à un réseau neuronal profond, qui fonctionne de manière assez similaire au cerveau humain. La traduction automatique permet de traduire la transcription dans la langue cible. La synthèse de la parole transforme la traduction écrite en discours oral. Skype s’est lancé sur le marché de la traduction automatique vocale : Skype Translator gère la traduction de conversations vocales en temps réel. Ce service est disponible en sept langues différentes. La traduction automatique adaptative La traduction automatique adaptative, AdaptiveMT, a été développée par SDL. Il s’agit d’un outil basé sur le machine learning, l’apprentissage automatique par la machine. Concrètement, comment est-ce que cela fonctionne ? L’AdaptativeMT peut être qualifié de moteur de traduction automatique privé. C’est à dire que le traducteur possède son propre moteur de traduction automatique. Le moteur de traduction automatique basé sur l’auto-apprentissage s’adapte et apprend en temps réel, au fur et à mesure que les segments sont traduits dans le logiciel. Toutes les modifications sont donc effectuées instantanément dans le texte, ce qui fait gagner en cohérence, pour une analyse personnalisée. La data constitue la clé de ce système, puisque c’est elle qui nourrit l’analyse. En somme, si la matière à analyser augmente, les traductions se rapprocheront davantage de traductions humaines, du point de vue de la qualité et de la fluidité. Traduction automatique : quel avenir ? Aujourd’hui, le développement de l’IA a de beaux jours devant elle, mais les machines ne sont pas prêtes de remplacer le travail des traducteurs professionnels. Étant donné l’abondance des flux d’informations multilingues, les traducteurs ont de plus en plus de mal à répondre à la demande exponentielle en traductions. En utilisant les outils mentionnés, les professionnels du domaine restent maîtres de leur processus créatif, et les options proposées par la traduction automatique accroissent leur productivité. Ces avancées peuvent leur permettre de se concentrer sur les textes à plus forte valeur ajoutée. Cependant, il est indéniable que l’essor de traduction automatique, de plus en plus fiable et précise va de pair avec une évolution du domaine de la post-édition. Les progrès futurs en termes d’apprentissage automatique par machine permettront de transformer en profondeur les méthodes de communication et de traduction au niveau international. Sources : https://www.latribune.fr/technos-medias/internet/quand-l-intelligence-a rtificielle-revolutionne-la-traduction-automatique-626326.html http://www.zdnet.fr/actualites/traduction-automatique-les-moteurs-neuro naux-debarquent-en-rafale-39846178.htm https://blog.sdltrados.com/fr/adaptivemt-self-learning-machine-translat ion-engine-questions-answered/ Posté dans Localisation, Translation #publisher Actu IA » Flux Actu IA » Flux des commentaires alternate alternate alternate alternate Actu IA intelligence artificielle Actu IA Le portail de l'intelligence artificielle et des startups IA Recherche, écosystème, éthique de l'intelligence artificielle et évolution de la société Intelligence artificielle Marché de l'IA Vie courante Traduction automatique : Focus sur la solution Open Source proposée par Systran,... Actualité Traduction automatique : Focus sur la solution Open Source proposée par Systran, acteur historique de la T.A qui ne cesse de se renouveler Traduction automatique : Focus sur la solution Open Source proposée par Systran, acteur historique de la T.A [Actu-IA_retina.png] [Actu-IA_retina.png] Actu IA Par Johanna Diaz - 13 avril 2018 Systran traduction neuronale Les progrès de l’intelligence artificielle permettent un véritable essor technologique, notamment en matière de traduction automatique. Après la traduction statistique, le nouveau paradigme dominant est maintenant la traduction basée sur des réseaux de neurones, également appelée traduction neuronale. De nombreux articles de recherche sont publiés sur le sujet et les GAFAM s’y intéressent plus que jamais. En 2016, SYSTRAN, qui fête ses 50 ans, a lancé le premier moteur de traduction neuronal, Pure Neural^® MT (PNMT^®). Destiné aux professionnels et optimisé pour être toujours à la pointe, il exploite les dernières avancées en matière d’intelligence artificielle, d’apprentissage profond (deep learning) et de réseaux de neurones artificiels. Nous avons eu la chance de nous entretenir avec Jean Senellart, Directeur Technique & Innovation du groupe SYSTRAN et Gaëlle Bou, Directrice Commerciale & Marketing à ce propos. Systran Les modèles neuronaux et le deep learning au service de la traduction automatique Éditeur de logiciels spécialisé dans la traduction automatique et le traitement naturel du langage, SYSTRAN a toujours été l’un des pionniers dans le domaine et a mis sur le marché fin 2016 une nouvelle génération de solutions, basées sur un framework opensource OpenNMT développé en collaboration avec Harvard NLP. OpenNMT a notamment été récompensé par ACL 2017, la conférence mondiale des experts en linguistique informatique dans la catégorie des systèmes opérationnels. Au-delà du moteur générique, SYSTRAN propose d’optimiser les réseaux neuronaux dans un processus post entraînement, appelé “spécialisation”. Cette méthode de spécialisation apporte une nette amélioration du score de qualité de la traduction en un temps record comme l’indique Jean Senellart : « La traduction neuronale apporte indéniablement une nette amélioration de la qualité de la traduction et ce n’est qu’un début. Ce qui, de mon point de vue, est encore plus excitant, c‘est la gamme de nouvelles applications que cette technologie va offrir dans un avenir proche. Par exemple, il est déjà possible d’introduire une interaction instantanée entre le traducteur humain et la traduction neuronale, avec des interfaces de traduction prédictive et incrémentale. Ces dernières apportent des propositions plus pertinentes, au fur et à mesure des corrections effectuées par le traducteur. » Une technologie révolutionnaire rendue open source En lançant PNMT^®, SYSTRAN a en même temps rendu open source les outils utilisés lors de son développement, comme nous l’ont indiqué Jean Senellart et Gaëlle Bou : « Un positionnement inédit pour SYSTRAN puisque c’est une société privée qui a toujours protégé son code source. Nous avons décidé de franchir le pas de l’open source car c’est le sens de l’histoire et parce que c’est toute une communauté qui participe à l’évolution de cette technologie d’excellence. Bien évidemment de notre côté nous développons autour de ce noyau technologique des fonctionnalités additionnelles, des interfaces utilisateurs et des outils de productivité qui rendent la technologie opérationnelle et facile à intégrer dans les systèmes d’information des entreprises. ». Triangle de Vauquois – Moteur de traduction neuronal – Systran OpenNMT est un système de traduction neuronal Open Source, lancé en décembre 2016, et qui compte plus de 1500 utilisateurs et contributeurs issus du monde académique et industriel. Une vingtaine de chercheurs, linguistes et ingénieurs du centre R&D de SYSTRAN basé à Paris, travaillent au développement de cette plateforme et animent la communauté d’utilisateurs. « Ce framework initialement développé par un étudiant de Harvard NLP, a été ré-écrit par les équipes R&D de SYSTRAN. Nous avons ainsi créé une dynamique de collaboration longue durée avec le groupe Harvard sur le projet OpenNMT. Initialement, nous nous basions essentiellement sur le toolkit de calcul Torch initié par : nous avons d’ailleurs reçu un grand soutien de la part de leurs équipes pour l’utiliser. Puis a lancé PyTorch et nous avons donc lancé une nouvelle version d’OpenNMT pour PyTorch. Nous avons ensuite été encore plus loin car devant le succès croissant de TensorFlow, nous avons lancé une troisième version d’OpenNMT, cette fois pour TensorFlow. Aujourd’hui nous supportons donc trois frameworks totalement différents et nous sommes en train de travailler sur un quatrième : MxNet ». OpenNMT propose une interface simple d’utilisation avec des modèles et des processus d’entrainement configurables, ainsi que des extensions pour permettre de développer des modèles de résumé automatique, de traduction des images en texte ou même de reconnaissance vocale. « Il s’agit d’un système qui est pensé pour des développements industriels, ce n’est pas seulement un environnement expérimental. De ce fait nous avons beaucoup de développeurs de grandes entreprises, qui construisent leurs propres systèmes en se basant sur les outils OpenNMT. Par exemple, booking.com base son système de production sur OpenNMT et nous sommes ravis de collaborer avec leurs équipes. » OpenNMT réunit une communauté importante de chercheurs. Depuis un an, nous avons presque une centaine d’articles scientifiques publiés sur différentes applications, notamment la traduction automatique mais aussi la génération de textes, dont les auteurs ont utilisé OpenNMT pour leurs recherches. SYSTRAN, de son côté, bénéficie également de cette communauté et de cette dynamique car à chaque publication intéressante sur le sujet, l’éditeur intègre les algorithmes à sa solution. Par exemple, ‘Transformer’, la dernière approche de Google concernant la traduction automatique, ou encore l’approche convolutionnelle créée par . Ces deux algorithmes ont été intégrés à OpenNMT pour qu’ils soient disponibles pour d’autres expériences par la suite. SYSTRAN donne des outils aux chercheurs, suit les publications, intègre de nouvelles fonctionnalités pour que la technologie reste toujours à la pointe de l’innovation. « Maintenir un outil Open Source pour une utilisation industrielle est un challenge car cela veut dire que tout doit marcher en permanence – il n’y a pas le droit à l’abandon de fonctionnalités ou l’absence de compatibilité ascendante. Quand nous avons lancé la première version d’OpenNMT il y a un an et demi, nous nous sommes engagés à ce que les modèles entrainés à l‘époque marchent toujours aujourd’hui. Nous assurons donc aussi cette maintenance. » OpenNMT L’apprentissage non-supervisé, l’avenir de la traduction automatique ? L’apprentissage non-supervisé intéresse de nombreux chercheurs et ingénieurs, dans de nombreux domaines. En matière de traduction, deux articles ont eu un écho retentissant en fin d’année dernière. Deux équipes de chercheurs en informatique, l’une formée par Guillaume Lample, Ludovic Denoyer et Marc’Aurelio Ranzato à Paris, et l’autre par Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho de l’Université du Pays Basque (UPV) à San Sebastian en Espagne, ont en effet réalisé des avancées particulièrement intéressantes. En utilisant l’intelligence artificielle, les chercheurs ont développé des techniques pour permettre aux réseaux de neurones de traduire entre deux langues sans avoir recours à un dictionnaire ou à une intervention humaine. SYSTRAN s’intéresse donc évidemment à cette technique mais a également un autre axe d’innovation : le training infini. « On peut prendre l’exemple du ‘Transformer’ de Google qui déclare : « Avec ces 4 millions de phrases qui sont une référence pour tout le monde, nous arrivons à avoir un score de N+2, là où le meilleur résultat pour l’instant était de N ». Il s’agit dans ce cas de la performance de l’algorithme brut dans des conditions contraintes. Cette performance est certes importante mais ne reflète pas les problématiques industrielles. Nous sommes, chez SYSTRAN, sur une logique de long terme, plus compliquée d’un point de vue technique. Notre objectif est le suivant : sur une base de 200 millions de phrases, nous voulons que nos moteurs continuent à apprendre en permanence dans une logique de long terme. Nous les entraînons pendant 6 mois, 1 an, 2 ans, et nous nous assurons qu’ils continuent à apprendre en permanence. C’est ce qu’on appelle le training infini, c’est à dire inculquer des données supplémentaires sur du long terme. Nous avons déjà des résultats intermédiaires et nous constatons que l’algorithme n’arrête pas d’apprendre et a toujours cette capacité d’apprendre plus. Cela fait actuellement 6 mois que nous continuons d’injecter des données dans nos plus vieux moteurs. Certains modèles apprendront plus vite, d’autres moins vite, mais sur le long terme arriveront chacun à des capacités différentes non plus uniformes, mais dépendant de leur propre parcours. Par extension, dans cette logique long terme et avec le savoir ce que ces modèles cumulent, il y a une autre logique corrélée : l’apprentissage de plusieurs langues en même temps. Cette capacité d’apprendre plusieurs choses permet de mieux former le système neuronal. Développer un moteur spécialisé sur un domaine c’est très facile, avec 1 million de phrases vous pouvez obtenir un modèle qui sait traduire uniquement dans ce domaine de façon très précise en 3 jours. Ce que nous essayons de faire, c’est d’avoir des moteurs sur lesquels on apprend, sur du long terme, à traduire de façon générique et à potentiellement devenir des experts dans plusieurs domaines à la fois. Une question est de savoir jusqu’où nous serons capables d’entraîner un moteur qui serait générique mais qui serait bon à la fois en traduction informatique, en traduction médicale, etc. C’est un défi important pour servir nos clients mais également un challenge intellectuel intéressant d’un point de vue recherche puisqu’il s’agit de trouver comment apprendre à des réseaux de neurones à se diversifier et à utiliser cette diversification pour devenir meilleurs. De nombreux articles sur ce sujet, dans des domaines très différents, ont été publiés. Dans le domaine des jeux par exemple, on a montré qu’on était capable d’apprendre à un réseau de neurones à jouer à un jeu mais que si on voulait lui apprendre à jouer à un deuxième jeu en même temps, il perdait une partie de son savoir sur le premier jeu. C’est ce qu’on appelle l’oubli catastrophique (catastrophic forgetting) et c’est un défi scientifique très intéressant. » Apprentissage non-supervisé, training infini, moteur de traduction experts dans différents domaines, SYSTRAN se montre ambitieux dans un secteur où les évolutions sont nombreuses. Comme l’indique Jean Senellart : « Peut-être que demain, dans un an, dans 10 ans, on aura un moteur de traduction capable de parler six langues, de traduire aussi bien du Shakespeare que du médical et des extraits spécialisés dans le domaine légal ». Mais SYSTRAN ne se limite pas à la simple traduction et s’intéresse de très près à la convergence des différentes technologies : « Historiquement l’intelligence artificielle a d’abord été appliquée à l’image, puis à la voix et maintenant au texte. Beaucoup de spécialistes pensent qu’il y aura une convergence de ces modalités qui permettra d’améliorer encore la qualité de traduction. Par exemple, si la machine utilise à la fois des sources vidéo et images en plus du texte, la traduction produite sera encore plus précise et adaptée au contexte. Il y a un potentiel très important sur ce sujet et il s’agit d’un enjeu fabuleux. Il pourrait y avoir plusieurs applications et plusieurs modalités en même temps au lieu de la seule traduction, notamment pour extraire de l’information ». Un modèle économique d’un nouveau genre Qu’une société comme SYSTRAN ait décidé de proposer en open source son moteur neuronal sur le framework OpenNMT peut étonner. Pourtant, le développement des nouveaux outils passe désormais par ce type d’environnement ouvert permettant aux acteurs de présenter leurs algorithmes au monde entier. Cela leur permet d’être actif au sein d’une communauté dynamique mais aussi de pouvoir, grâce aux échanges et aux retours des membres, disposer du code le plus optimisé possible, de nouvelles fonctionnalités et de nouveaux algorithmes, comme c’est le cas pour OpenNMT. OpenNMT L’objectif de SYSTRAN a toujours été d’offrir aux professionnels des solutions de traduction spécialisée dans leur terminologie métier. SYSTRAN est aujourd’hui un groupe de 200 personnes dont 60 basées à Paris. En rendant open source son moteur neuronal, il fallait démontrer que ce modèle permettait également de rémunérer les chercheurs et de générer des bénéfices. La clé de cette réussite réside dans le fait que la mise à disposition d’OpenNMT s’accompagne d’une offre de services et de solutions clés en main qui répondent aux besoins d’une majorité de clients. Gaelle Bou et Jean Senellart rappelaient à ce propos : « Nous avons été contactés par de grands groupes industriels après qu’ils aient découvert OpenNMT. Leurs équipes l’utilisaient, et ils souhaitaient savoir si nous pouvions les accompagner pour aller plus loin, car une des valeurs clé de SYSTRAN est le savoir-faire qui est indispensable pour faire de cette technologie un véritable outil de production. A l’instar d’autres éditeurs open source (Docker, Redhat…), nous sommes en train de développer toute une palette d’outils et de services autour du noyau technologique. En parallèle bien évidement SYSTRAN propose une solide gamme de solutions clés en main pour les entreprises et les organisations publiques qui connait un très beau succès et qui ne cesse d’être optimisée ». Plus d’informations sur OpenNMT. Découvrez le serveur de démonstration Pure Neural™. L’équipe d’ActuIA tient à remercier Jean Senellart et Gaëlle Bou avec qui nous avons eu grand plaisir à échanger. Thématiques Marché de l'IA Recherche en intelligence artificielle Lire plus d'actus IA sur Guillaume Lample [guillaume_lample.jpg] Guillaume Lample réalise actuellement une thèse CIFRE dans le cadre d'une collaboration /UPMC. Il a étudié à l'université Carnegie Mello... Voir les actualités de Guillaume Lample Jean Senellart Jean Senellart est diplômé de l’École Polytechnique et titulaire d’un Doctorat en Informatique Linguistique de l’Université de Paris VII. Ch... Voir les actualités de Jean Senellart OpenNMT Voir les actualités de OpenNMT Systran [systran.png] Systrant est un éditeur de logiciels spécialisé dans la traduction automatique et le traitement naturel du langage. Il est l'un des pionniers dans ... Voir les actualités de Systran TAGS apprentissage non supervisé deep learning linguistique moteur de traduction neuronal MXNET open source PyTorch recherche reconnaissance vocale réseau de neurones spécialisation TensorFlow traduction traduction prédictive training infini traitement automatisé du langage traitement des données du langage naturel traitement du langage naturel Vous pourriez également être intéressé par : AWS REINVENT 2018_ AWS REINVENT 2018_ AWS REINVENT 2018_ AWS Reinvent 2018 : Une marketplace dédiée à l’intelligence artificielle Skema lab IA Skema lab IA Skema lab IA SKEMA lance un laboratoire mondial en intelligence augmentée sous la direction de Thierry Warin bertrand_braunschweig bertrand_braunschweig bertrand_braunschweig Bertrand Braunschweig devient directeur de la mission Inria de coordination du programme national de recherche en intelligence artificielle Pierre-Yves Oudeyer Pierre-Yves Oudeyer Pierre-Yves Oudeyer Les Prix Inria 2018 récompensent notamment Pierre-Yves Oudeyer, pionnier de la « curiosité artificielle » Digitale attitude DeepL, le meilleur traducteur automatique? CHRONIQUE. Le marché de la traduction automatique est occupé essentiellement par Google Translate et Bing de Microsoft, mais un nouveau venu baptisé DeepL risque de les coiffer au poteau 3 minutes de lecture Technologies Chroniques Lancé en 2017, DeepL Translator est un système de traduction automatique basé sur l’intelligence artificielle, capable de fournir des traductions tout en identifiant les nuances de langage les plus subtiles. A l’heure actuelle, il est disponible gratuitement sur DeepL.com et fonctionne en français, anglais, allemand, espagnol, italien, polonais et néerlandais. La société, allemande, existe en fait depuis 2009 sous le nom de Linguee, qui a été le premier moteur de recherche de traduction sur Internet. Depuis, le site a répondu à plus de 10 milliards de demandes provenant de plus d’un milliard d’utilisateurs. C’est un des outils les plus utiles et populaires du Web, car plutôt que de traduire un mot par son équivalent comme le ferait un dictionnaire, Linguee propose le mot dans son contexte, en indiquant une série d’exemples où le mot a été utilisé. Galop d’entraînement avec Linguee Linguee a donc servi de matériel d’entraînement au réseau neuronal de traduction de DeepL, qui fonctionne sur un superordinateur situé en Islande. Celui-ci est doté d’une puissance de calcul capable d’effectuer 5 100 000 000 000 000 opérations par seconde, ce qui est suffisamment puissant pour traduire un million de mots en moins d’une seconde. Pour l’utilisateur qui copie et colle un texte dans un champ, cela résulte en une traduction de qualité, immédiate. Avec DeepL (capture d'écran) Comment DeepL fait-il la différence avec Google Translate et Bing? Comparés côte à côte, certains paragraphes sont quasiment identiques. Mais là où les phrases sont interprétées différemment, celles de DeepL sont souvent plus justes. Avec Bing. (capture d'écran) Avec Google. (capture d'écran) Un fait confirmé par des traducteurs professionnels qui, lors de tests à l’aveugle opposant DeepL à ses concurrents, ont accordé trois fois plus souvent leur préférence à DeepL. Alors les traducteurs automatiques sont-ils une menace pour les professionnels du métier? «Non, pas à l’heure actuelle», selon Benjamin Bayet de DeepL: «La traduction machine a pour but d’améliorer le rendement et la qualité du travail des professionnels. Notre objectif n’est pas de les remplacer mais d’être pour eux un outil indispensable.» __________________________________________________________________ #Le Monde.fr : Idées La traduction automatique, « enjeu technologique, économique et culturel » François Yvon, chercheur en informatique, dans une tribune au « Monde », souligne l’importance des technologies de traduction, nécessaires au développement international des entreprises et à l’affirmation de la souveraineté nationale. Par François Yvon Publié le 21 juin 2018 à 15h00 - Mis à jour le 21 juin 2018 à 15h00 Temps de Lecture 4 min. Envoyer par e-mail Envoyer par e-mail Article réservé aux abonnés « Une langue ne rayonnera que si elle s’appuie sur des outils d’IA performants » (Photo: HomePod, une enceinte connectée qui se contrôle avec la voix grâce au logiciel Siri). [7753f0d_b019fb6fc9744c2fb86a7b385b13ff0d-b019fb6fc9744c2fb86a7b385b13f f0d-0.jpg] « Une langue ne rayonnera que si elle s’appuie sur des outils d’IA performants » (Photo: HomePod, une enceinte connectée qui se contrôle avec la voix grâce au logiciel Siri). Marcio Jose Sanchez / AP Tribune. Le président Macron a récemment prononcé deux grands discours, en apparence sans lien l’un avec l’autre : le premier, le 20 mars pour affirmer devant l’Académie française sa volonté de rétablir la place du français parmi les grandes langues mondiales du XXI^e siècle ; le second, le 29 mars, devant la fine fleur de la recherche en sciences du numérique, pour annoncer un plan d’action pour développer l’intelligence artificielle (IA) en France et en Europe. Le premier, truffé de citations littéraires, prône comme mesure phare le renforcement de l’apprentissage du français pour tous (les écoliers français, les migrants, les étrangers dans les instituts français). Le second, mâtiné de franglais, promet le développement d’une nouvelle filière industrielle : soutien aux « talents » et à l’innovation, libération des « datas », etc. Les motifs pour lier les deux sujets – langue et IA – ne manquent pourtant pas. L’enjeu de la traduction automatique (TA) permet de le démontrer. Le discours sur l’IA insiste sur les opportunités de développement économique qu’offrent ces technologies. Or, grâce à la TA, il devient possible aux entreprises françaises de bénéficier pleinement du grand marché européen unifié, en traduisant dans les 23 autres langues officielles de l’Union européenne (UE) leurs manuels techniques, contrats, catalogues et sites Internet. Citoyens de seconde zone Car se limiter à traduire vers l’anglais n’est pas suffisant : moins d’un Européen sur deux parle anglais, et plus de 70 % des Européens font plus confiance aux sites rédigés dans leur langue pour commercer en ligne. L’utilisation d’une TA de haute qualité pour traduire depuis le français vers les langues de l’UE – mais aussi vers le mandarin, l’hindi, l’arabe… – est la seule solution économiquement viable. Dans le sens inverse, les consommateurs et les citoyens français doivent pouvoir accéder à des contenus (bien) traduits : pour choisir des produits et services étrangers, pour interagir avec les administrations d’Etats membres sur des questions commerciales, réglementaires, ou de droits sociaux. L’UE a saisi ces enjeux, et intègre des outils de TA dans une palette toujours plus large de services : règlement de contentieux commerciaux, publication de marchés publics, bibliothèque numérique Europeana, etc. Faute de TA de qualité, de multiples services restent inaccessibles, reléguant les Européens non-anglophones au rang de citoyens de seconde zone. Le Monde utilise des cookies pour vous offrir une expérience utilisateur de qualité, mesurer l’audience, optimiser les fonctionnalités des réseaux sociaux et vous proposer des publicités personnalisées. En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies dans les conditions prévues par notre politique de confidentialité. En savoir plus et gérer les cookies. Paramétrer les cookies (BUTTON) Accepter (BUTTON) Fermer la bannière d’avertissement sur les cookies #publisher Quand l’intelligence artificielle révolutionne la traduction automatique Par Sylvain Rolland | 22/12/2016, 8:08 | 1086 mots Systran s'est bien placé dans la course au marché des entreprises, mais ses concurrents sont également dans les starting blocks, notamment SDL, ainsi que Google et Microsoft. Les deux géants du net américains ont aussi annoncé cet automne le lancement de moteurs neuronaux pour la traduction. Systran s'est bien placé dans la course au marché des entreprises, mais ses concurrents sont également dans les starting blocks, notamment SDL, ainsi que Google et Microsoft. Les deux géants du net américains ont aussi annoncé cet automne le lancement de moteurs neuronaux pour la traduction. (Crédits : Regis Duvignau / Reuters) L’éditeur Systran, dont les équipes de recherche sont installées en France, vient de lancer un moteur de traduction automatique fondé sur un « réseau neuronal » d’intelligence artificielle. Microsoft et Google sont aussi dans les starting-blocks. L’objectif ? Doter la machine de capacités de compréhension et de restitution digne de l’homme. Jusqu’à le remplacer ? La machine va-t-elle rattraper puis dépasser l'homme dans tous les domaines, même ceux qui exigent des qualités poussées de compréhension, de contextualisation, d'anticipation, de finesse, bref, des caractéristiques profondément humaines ? Au début de l'année, le meilleur joueur de go au monde a été battu à la loyale par une intelligence artificielle de Google. L'exploit paraissait pourtant impossible, mais la machine, dopée à l'intelligence artificielle, au deep learning (apprentissage en profondeur) et enrichie par le big data (analyse des données à grande échelle) a prouvé qu'elle pouvait anticiper le jeu et faire preuve de créativité dans les coups, jusqu'à battre le champion du monde. L'intelligence artificielle va bouleverser la traduction Quid de la traduction ? Jusqu'à présent, les traducteurs n'étaient pas trop inquiets pour leur avenir. Car malgré les progrès des logiciels, il était impossible pour une machine de restituer de manière convaincante toutes les subtilités de la langue, du second degré aux jeux de mot, en passant par les multiples expressions intraduisibles par du mot-à-mot. Sans même parler du langage technique et hyperspécialisé, comme dans le droit, l'informatique ou les contrats. Cela va changer. Comme pour le jeu de go, l'intelligence artificielle progresse à vitesse folle. Si bien que plusieurs entreprises (Google, Microsoft, Systran) ont lancé cet automne, quasi-simultanément, des logiciels de traduction automatique d'une qualité inégalée. Leur secret ? Le NMT, pour Neural Machine Translation. Cet acronyme désigne une intelligence artificielle « neuronale », proche du fonctionnement d'un cerveau humain. Ce qui lui permet d'embrasser la complexité de la langue et de restituer du chinois, par exemple, mieux qu'une personne non-native. Et, à terme, mieux qu'un Chinois lui-même. Systran lance sa solution de traduction neuronale pour les entreprises Spécialiste de la traduction automatique depuis quarante ans, l'entreprise sud-coréenne Systran, dont la R&D est basée en France, vient de lancer son propre moteur neuronal, baptisé Pure Neural MT, que l'entreprise revendique comme « le plus abouti du marché ». Disponible en trente langues, sa solution, permet de « traiter la phrase, le paragraphe ou le document dans sa globalité », grâce à un réseau de neurones artificiels unique au monde. Ce réseau comprend 3.000 lignes de codes, soit davantage, d'après l'entreprise, que celui de Google Translate. Comme dans un cerveau humain, Systran a mis au point des sous-réseaux de neurones, qui sont complémentaires, interconnectés et s'activent au fur et à mesure de l'avancée de la traduction. Ainsi, un premier sous-réseau va traiter la phrase pour en extraire le sens. Un second, spécialisé dans la syntaxe et la sémantique, va enrichir la compréhension. Un troisième va contextualiser le contenu. Un quatrième va attirer l'attention sur les mots-clés... Et ainsi de suite. « Tous ces sous-réseaux nourrissent le moteur et vont lui permettre de choisir la meilleure traduction possible », explique Jean Senellart, le président de Systran. Remplacer la traduction "statistique" popularisée par Google L'entreprise considère son réseau neuronal comme « une innovation radicale », destinée à « remplacer toutes les technologies de traduction existantes ». Effectivement, cette technologie va plus loin que la traduction « statistique » perfectionnée par Google, qui donne des résultats parfois très approximatifs, voire ridicules, avec moult contresens et mauvaise concordance des temps. Car ces anciennes générations de moteurs se basent sur le big data, ou l'analyse d'un énorme volume de données en temps réel, pour repérer les phrases qui reviennent le plus souvent et traduire automatiquement de manière extrêmement rapide. Au contraire, le réseau de Systran se nourrit de données enrichies, comme l'explique Jean Sennelart: « Notre moteur s'adapte et s'auto-spécialise. Il comprend les bases d'une langue et s'ajuste au plus près de la terminologie et du métier de ses clients en apprenant en continu sur la base des données qui lui sont confiées. Le chinois de l'informatique, le chinois de juridique et le chinois médical sont presque des langues différentes, mais le moteur va s'y adapter très vite ». Systran cible uniquement les entreprises. Les grands groupes mondiaux représentent 30% de son chiffre d'affaires. Des firmes comme PSA, Adobe ou Société générale l'utilisent pour traduire leurs contrats et documents internes dans leurs multiples filiales. L'entreprise équipe aussi des sociétés de traduction, qui utilisent sa technologie pour leurs clients. A la différence de Google, qui se considère propriétaire du texte qu'il traduit, Systran commercialise ses solutions sur la base d'abonnements et permet à l'entreprise d'héberger elle-même le logiciel, ce qui lui donne un avantage compétitif. De fait, Systran travaille avec des sociétés dans la défense, la sécurité et même des services secrets. « Les données clients, les contrats ne peuvent pas être dans le cloud, nous les hébergeons dans nos propres datacenters, explique Cédric Rouvrais, le directeur de l'équipe d'innovation à la direction des services informatiques de la Société générale. Par conséquent, il nous fallait un logiciel de traduction installé en interne, car les données sont trop sensibles », Google et Microsoft se convertissent aussi au neuronal Si Systran s'est bien placé dans la course au marché des entreprises, ses concurrents sont également dans les starting blocks, notamment SDL, mais aussi Google et Microsoft. Les deux géants du net américains ont aussi annoncé cet automne le lancement de moteurs neuronaux pour la traduction. Révélé en novembre, Google Neural Machine Translation (GNMT) s'attaque, grâce aux réseaux neuronaux d'intelligence artificielle, aux fameuses erreurs et approximations qui font la renommée de Google Translate. Avec ce nouveau système, intégré à l'ancien, Google annonce réduire les erreurs de traduction jusqu'à 85%. Si Google Translate est disponible dans 103 langues, seules neuf ont été adaptées à la technologie GNMT, dont le français et l'anglais, mais aussi le chinois, le coréen, le japonais, le turc, l'espagnol, l'allemand et le portugais. De quoi améliorer une bonne partie des recherches mondiales. C'est également en novembre que Microsoft a lui lancé son moteur neuronal pour ses traductions automatiques via Skype Translator et Microsoft Translator. Disponible en soixante langues, le système vise à faciliter les conversations groupées. Jusqu'à 100 personnes peuvent converser en même temps en utilisant le logiciel. De quoi séduire les entreprises qui doivent organiser des réunions entre filiales à l'autre bout du monde. 10 000 startups #prev next IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-WHC84B2 La traduction automatique de textes scientifiques vient de faire un grand pas en avant. Laurent, Fotolia Tech Une IA traduit un livre de 800 pages en 12 heures ! ActualitéClassé sous :intelligence artificielle , apprentissage profond , deep learning Lire la bio Marc Zaffagni Journaliste Publié le 11/10/2018 Publié le 11/10/2018 C'est une première mondiale. Une intelligence artificielle entraînée par Quantmetry et Deepl a réalisé la traduction intégrale de l'anglais en français de l'ouvrage de référence « Deep Learning ». La démarche est d'autant plus intéressante que les outils ayant servi à préparer cette traduction seront mis à disposition de la communauté scientifique en open source afin que les chercheurs puissent réaliser plus rapidement et à moindre frais des traductions d'ouvrages scientifiques ou historiques. Vous aimez nos Actualités ? Inscrivez-vous à la lettre d'information La quotidienne pour recevoir nos toutes dernières Actualités une fois par jour. Traduire le langage courant en divers idiomes est un exercice dans lequel l'intelligence artificielle (IA) est de plus en plus performante. Il existe aujourd'hui plusieurs outils de traduction automatique en ligne grâce auxquels on parvient à saisir le sens d'un texte avec une relative clarté. Toutefois, demander à une IA de traduire un texte scientifique ou technique avec la fidélité et la rigueur nécessaires est encore très compliqué. « Était » encore très compliqué faut-il plutôt dire puisqu'une belle avancée vient d'être accomplie dans ce domaine, et qui plus est par une entreprise française ! Une intelligence artificielle a réalisé la traduction intégrale en français (depuis l'anglais) du livre « Deep Learning » en 12 heures à peine et avec une fidélité jusqu'ici jamais atteinte. Cet ouvrage de huit cents pages coécrit par Ian Goodfellow, Yoshua Bengio et Aaron Courvill, est une référence mondiale consacrée à l’apprentissage profond qui n'avait encore jamais été traduit dans la langue de Molière. Une très bonne nouvelle donc pour les chercheurs et étudiants francophones et pour tous ceux qui veulent s'intéresser de près à l'intelligence artificielle. « Nous voulions amener Deep Learning en France et, au passage, défendre l'école française de mathématiques et une pensée spécifique dans ce domaine », explique pour Futura Alexandre Stora, membre de l'équipe dirigeante de Quantmetry. Cette jeune pousse hexagonale est spécialisée dans le conseil en intelligence artificielle pour les entreprises. Mais pourquoi ne pas avoir tout simplement fait appel à des traducteurs spécialisés ? « Trop long et trop cher », nous répond notre interlocuteur qui évoque un an de travail et un budget avoisinant les 150.000 euros. () La traduction française de Deep Learning, « L’apprentissage profond », sera disponible dans les librairies à partir du 18 octobre. Massot Editions, Quantmetry La traduction française de Deep Learning, « L’apprentissage profond », sera disponible dans les librairies à partir du 18 octobre. Massot Editions, Quantmetry Un dictionnaire de 200 termes spécifiques Pour mener à bien cet ambitieux projet, Quantmetry s'est allié à Deepl, service en ligne de traduction automatique développé par les créateurs de Linguee. Lancé en août 2017, Deepl est d'ores et déjà considéré comme le meilleur de sa catégorie. « La performance de Deepl tient à son corpus très bien traduit », souligne Alexandre Stora. Mais cela était encore insuffisant pour pouvoir s'attaquer à la complexité du texte de Deep Learning. Et surtout, il fallait également pouvoir traduire les formules mathématiques, les tableaux et autres graphiques qui ponctuent le texte. « Nous sommes partis de l'API Deepl à laquelle nous avons ajouté des outils spécialement développés pour la traduction des fiches et graphismes », précise le responsable de Quantmetry. L'équipe a également créé un dictionnaire de deux cents mots spécifiques afin de garantir une constance et une cohérence dans la traduction des termes mathématiques. Trois mois de développement ont été nécessaires pour préparer l'IA à ce défi. Mais une fois l'outil prêt, il n'a fallu que douze heures à la machine pour accomplir la traduction. Une équipe de chercheurs de l'ENSAI, l'Inria et du CNRS a effectué le travail de relecture et a constaté la très grande qualité de la traduction initiale. Selon Alexandre Stora, il n'y a eu que peu de reprises au niveau du texte lui-même, plutôt des « ajustements à la marge », notamment sur la ponctuation ou bien pour « élargir le contexte ». Toutefois, dans son communiqué, Quantmetry prend soin de préciser que « l'IA est performante pour traduire un contenu technique, mais que le rôle du traducteur humain reste essentiel, à plus forte raison concernant les ouvrages artistiques ou littéraires ». Un outil publié en open source Cette IA peut-elle pour autant être considérée comme une traductrice hors pair, capable de s'attaquer à n'importe quel livre ? « Elle est parfaite pour les contenus scientifiques mais elle ne saurait pas retranscrire la plume, ni le style d'un auteur », reconnaît notre interlocuteur. Il n'empêche que la performance est déjà impressionnante. Et surtout, elle ouvre des possibilités très prometteuses pour la communauté des chercheurs français. En effet, Quantmetry a prévu de publier en open source le logiciel créé pour convertir le travail des algorithmes au format LaTex (outil d'écriture de documents scientifiques très populaire dans le milieu de la recherche). L'objectif est d'offrir aux chercheurs en sciences, mais aussi aux historiens, l'opportunité d'adapter l'outil pour réaliser rapidement et à moindre coût des traductions de textes pointus dont la faible diffusion ne justifie pas d'engager des traducteurs humains. En revanche, l'accès à l'API Deepl restera payant. Quant à la traduction française de Deep Learning, « L’apprentissage profond », elle sera commercialisée à partir du 18 octobre au prix de 69 euros dans toutes les librairies, à la Fnac et sur Amazon. Ce qu'il faut retenir La traduction automatique n'était, jusqu'à présent, pas encore assez performante pour être utilisée sur des textes scientifiques ou techniques complexes. La société française Quantmetry, associée au service de traduction Deepl, a formé une intelligence artificielle pour réaliser la traduction d'un ouvrage de référence sur l'apprentissage profond. Êtes-vous lassé par la mauvaise qualité de la traduction automatique ? Apprenez à connaître l’API de traduction humaine d’Unbabel Si vous croyez que le battage médiatique émane des départements de relations publiques de certaines entreprises de technologie, vous entendrez toutes sortes de choses sur la façon dont les progrès récents en “neurologie” signifient que la traduction automatique est “presque indiscernable” d’une qualité professionnelle. Mais bien sûr, vous avez réellement utilisé ces services et vous savez que c’est un non-sens absolu. Parce que les moteurs de traduction automatique sont formés sur des phrases simplistes et isolées de Wikipédia et des fils de presse, ils capturent rarement les nuances et les idiosyncrasies du langage humain – un robot ne peut pas être drôle. Alors que Google Translate et ses semblables pourraient être en mesure de traduire un titre ou une courte phrase, il est terriblement insuffisant lorsqu’il s’agit de comprendre la subtilité et le ton de la voix – ce qui est précisément ce dont vous avez besoin si vous êtes sur le marché de l’externalisation de la traduction ou si vous souhaitez intégrer une API de traduction. Traduction de qualité professionnelle en tant que service Chez Unbabel, nous croyons qu’il y aura toujours un rôle à jouer pour les humains dans le processus de traduction. Nous croyons que le futur n’est pas la traduction automatique, c’est machine + traduction humaine. Les machines nous permettent d’accélérer le processus de traduction, mais il faut cette touche humaine pour que les résultats soient véritablement utilisables par les entreprises modernes. Comme le professeur Andy Way,l’un des pères de la traduction automatique l’a déclaré : «l’humain dans la boucle sera toujours la partie la plus importante de ce processus de traduction.” Unbabel évite le processus rapide et coûteux de l’embauche de traducteurs indépendants, optant plutôt pour l’utilisation de la Traduction Automatique Neuronale pour fournir des traductions plus rapides qui s’améliorent constamment. En accord avec cela, nous mettons le meilleur système d’estimation de la qualité au monde en oeuvre. Il identifie les mots qui sont incorrects et fournit des scores de qualité automatiques pour chaque phrase traduite. Ensuite, c’est à notre communauté de dizaines de milliers de traducteurs de diverses nationalités de s’occuper minutieusement des parties de texte nécessitant plus d’attention selon nos estimations et de délivrer une qualité de traduction que ne fournissent pas les API machine. C’est pourquoi peut-être le Le Financial Times dit que nous changeons le monde. C’est peut-être pourquoi nous devrions parler des besoins de votre entreprise aujourd’hui. Ici, envoyez-nous un message et nous reviendrons vers vous le lendemain. 🙂 Matthew Carrozo Pourquoi la traduction est-elle si difficile? Langue Localisation Maria Almeida July 4, 2018・9 min read Les principaux enseignements tirés de l’événement annuel d’Unbabel : comment les grandes entreprises mondiales offrent-elles les meilleures expériences client ? #alternate alternate Versacom » Flux Versacom » Flux des commentaires Versacom » Traduction automatique et intelligence artificielle Flux des commentaires LE BLOGUE DE VERSACOM Traduction automatique et intelligence artificielle par Versacom | 03 septembre 2018 Traduction automatique et intelligence artificielle Versacom vous propose une série d’articles sur des enjeux qui vous touchent! L’impact des nouvelles technologies constitue, depuis quelques décennies, un enjeu majeur dans le monde du travail. Il a récemment acquis une toute nouvelle dimension avec l’avancement spectaculaire de l’intelligence artificielle et le potentiel d’automatisation qu’elle présente dans une foule de domaines, dont la traduction. Qu’est-ce que cette nouvelle réalité implique pour le secteur langagier? Essentiellement, c’est le passage – dont les mérites sont encore débattus – de la traduction assistée par ordinateur à la traduction automatique. Quelle différence entre les deux? En traduction assistée par ordinateur, les langagiers professionnels exploitent des outils (généralement des mémoires de traduction) qui leur permettent de retrouver automatiquement tout passage d’un texte qui a déjà été traduit et qui, dans certains cas, peut être repris tel quel ou simplement mis à jour plutôt que retraduit à neuf. Autrement dit, c’est le travail de recherche qui s’automatise, mais pas le travail de traduction (dont le processus est plus rapide et le résultat plus uniforme, mais que l’on confie toujours à des experts langagiers). La traduction automatique, elle, se fait entièrement par logiciel. L’outil le plus connu et utilisé est certainement Google Traduction. Les textes traités par traduction automatique sont parfois relus par des langagiers professionnels, dont le travail se qualifie alors de postédition (c’est-à-dire une relecture rapide à des fins d’amélioration du résultat). Google Traduction fait encore beaucoup rire (ou pleurer certains utilisateurs échaudés) avec ses résultats imprévisibles et parfois insensés, mais l’apport récent de l’intelligence artificielle a significativement changé la donne et la traduction automatique progresse aujourd’hui à la vitesse grand V. Des acteurs connus ou émergents annoncent régulièrement le lancement de nouvelles applications exploitant des technologies apparemment plus sophistiquées que celles du passé. La traduction automatique reste cependant encore faillible et exige des précautions tout à fait justifiées, mais l’automatisation au moins partielle de la traduction est un fait désormais établi. Soyons clairs : la traduction automatique ne peut se comparer à la traduction professionnelle, dans la mesure où les logiciels, contrairement aux traducteurs, ne comprennent pas le contenu qu’ils traitent. C’est une distinction déterminante qu’il faut garder à l’esprit. Les outils de traduction automatique semblent toutefois en mesure de rendre « adéquatement » certains contenus. Reste à savoir comment juger de la qualité de ces textes et dans quel contexte ils sont acceptables (ou à tout le moins utiles). Il est difficile de faire un choix éclairé devant l’avalanche d’information souvent très technique sur la traduction automatique et l’intelligence artificielle. Une organisation qui envisage de contracter les services d’un fournisseur de services linguistiques gagne assurément à se familiariser avec les principaux enjeux de la traduction automatique. Versacom vous propose donc une série d’articles abordant la question sous cinq grands angles qui pourraient directement vous toucher : Le contexte actuel et les principaux enjeux (c’est l’objet du présent article) La sécurité de l’information traitée par des outils de traduction automatique Les technologies les plus courantes et les plus prometteuses La qualité des textes traités par traduction automatique Les usages valables de la traduction automatique dans les organisations Chef de file des solutions et des technologies langagières depuis près de 25 ans, Versacom est au cœur de tous les grands dossiers et de toutes les réflexions qui définissent ou transforment l’industrie. Nos articles vulgarisés vous permettront de tirer des conclusions et des stratégies précises, adaptées aux besoins particuliers de votre organisation. Nous souhaitons aussi nourrir votre réflexion sur les enjeux complexes de cette nouvelle réalité. Bref survol du contexte actuel Pourquoi la traduction automatique attire-t-elle autant? Parce qu’elle est instantanée… ou presque On assiste à l’explosion des contenus et à la multiplication des plateformes. Les exigences des communications sont désormais tentaculaires : le contenu doit être diffusé dans de multiples langues et décliné sous de multiples formes, rapidement, régulièrement, interactivement. Comment s’étonner que la traduction automatique attire par sa rapidité? Parce qu’elle ne coûte rien… ou presque Derrière la mondialisation des communications, il y a la mondialisation des affaires et la concurrence entre des organisations dont les structures de coûts sont radicalement différentes d’un pays et d’un continent à un autre. Tellement plus à faire et à financer, mais aussi tellement plus de bas prix à concurrencer. Comment s’étonner que la traduction automatique attire par sa gratuité? Parce qu’elle offre une capacité illimitée… ou presque Non seulement les traducteurs qualifiés travaillent moins vite et coûtent plus cher que les logiciels (même s’ils travaillent toujours nettement mieux), mais ils sont aussi bien trop peu nombreux pour traiter tout le contenu à traduire dans le monde. Il y a des masses d’amateurs qui se prétendent traducteurs, mais qui seraient incapables de répondre à vos normes de qualité. Comment s’étonner que la traduction automatique attire par sa capacité? Où en est le débat? Le point de vue des optimistes “Neural machine translation marks a new age in automatic machine translation. Unlike technologies developed over the past 60 years, the well-trained and tested NMT systems that are available today, have the potential to replace human translators.” (Slator, avril 2018) – “Machines were never so smart, but now they are made so smart that they can actually think for themselves.” (TechGenYZ, July 2018) – « Within our lifetime I’m fairly sure that we’ll reach — if we haven’t already done so — human-level performance, and/or exceeding it. » (WBUR, juillet 2018) – « La traduction [automatique] marche tant bien que mal, ça n’est pas parfait, mais c’est suffisamment bon pour être utile » (Les.Echos.fr, mai 2018) – “Microsoft announced a new way for users to customize neural machine translation systems (…) This enables additional context to generic translation models so that translations can reflect a company’s industry, tone and unique terminology.” (MSPoweruser, mai 2018) – “While many continue to moan about the quality of machine translation tools, we have already reached a point in human history where the substantial bulk of language translation is being done by computers.” (CMS Wire, juin 2018) Le point de vue des sceptiques “Has AI surpassed humans at translation? Not even close! Neural network translation systems still have many significant issues which make them far from superior to human translators.” (Skynet Today, July 2018) – “Machine learning has improved significantly in pattern recognition and prediction. Nonetheless, for it to rival the capabilities of a human brain, two things are needed: a full understanding of the human brain, and the computing power to replicate it.” (Slator, February 2018) – « Pour l’instant les ordinateurs sont encore assez stupides et il y a encore beaucoup de progrès à faire. » (Impact Campus, avril 2018) – “Recently, artificial intelligence and machine learning have made considerable progress with machine translation, which is very fast and economical to produce. However, in most cases, machine translation still isn’t good enough to be used as is for human audiences.” (Markets Insider, November 2017) – “The progress we’ve made in machine translation is exciting. But, it’s not that exciting.” (OBSERVER, February 2018) – “Robots Fail to Win Shoppers’ Hearts: How Man Beats Machine When Translating Retail Content” (Retail Tech News, novembre 2017) Le point de vue de Versacom La traduction automatique ne peut pas remplacer les langagiers professionnels, mais elle aide à comprendre le contenu approximatif d’un texte. – L’intelligence artificielle est littéralement artificielle, en ce sens qu’elle ne fait que simuler l’intelligence. Les logiciels demeurent dénués de la faculté de compréhension, bien qu’ils donnent l’impression de comprendre. – Que la traduction automatique puisse ou non remplacer un jour la traduction professionnelle dans certaines situations, c’est aujourd’hui l’un des nombreux outils dont les traducteurs et leurs clients tirent profit pour réaliser des économies de temps et d’argent. – La traduction automatique présente encore des risques d’erreurs trop élevés pour qu’on l’utilise globalement en communications organisationnelles. Elle aide toutefois à déterminer si un texte doit être professionnellement traduit, permettant ainsi d’éviter des traductions inutiles et leurs coûts. – Les nouvelles technologies neuronales restent parfois inférieures aux techniques statistiques précédentes quand celles-ci puisent dans d’immenses corpus de contenus déjà traduits. – On n’est pas dans le tout ou rien avec la traduction automatique. Pour le moment, l’enjeu principal est celui de choisir les bons outils et les bonnes stratégies pour chaque communication, dans le but d’obtenir le maximum de qualité tout en éliminant les risques pour votre organisation. Quels enjeux faut-il comprendre? La sécurité L’information que l’on entre 
dans des moteurs 
de traduction automatique 
comme Google Traduction 
demeure-t-elle confidentielle? Comment ces outils assurent-ils la confidentialité de l’information? Comment savoir si un outil de traduction automatique est en mesure d’assurer la confidentialité de l’information? Existe-t-il des solutions de traduction automatique qui garantissent l’absolue confidentialité de l’information traitée? Une citation qui donne matière à réflexion « Le 3 septembre 2017, l’agence de presse norvégienne NRK a jeté un pavé dans la mare. Elle a révélé que des employés de Statoil, l’entreprise norvégienne de production d’énergie et d’opérations offshore, ont découvert que des textes saisis par ses employés dans Translate.com, qui propose notamment de la traduction automatique gratuite en ligne, sont désormais accessibles à n’importe qui via une simple recherche sur Google. Cette faille majeure qui a rendu disponibles des lettres de licenciement, des contrats de travail, mais aussi des mots de passe et des contrats confidentiels a été relayée par plusieurs médias. L’utilisation fréquente […] d’outils de traduction en ligne est une cause fréquente de perte de propriété intellectuelle. En effet, à partir du moment où des données sont entrées dans un traducteur en ligne, elles sont accessibles librement sur le cloud et deviennent la propriété de l’éditeur de l’outil de traduction. » Article complet La technologie Comment fonctionne la traduction automatique? Tous les outils fonctionnent-ils de la même façon? Existe-t-il des technologies plus sûres, plus performantes que d’autres? Quelles sont les grandes forces et faiblesses de ces technologies? Une citation qui donne matière à réflexion « Les débuts de Google Traduction sont célèbres. Le service a pioché dans les gigantesques bases de données des documents bilingues de l’ONU et du Parlement européen. Il y a appliqué ensuite une méthode statistique pour établir des modèles servant à traduire ces mêmes textes dans d’autres idiomes. Une méthode critiquée pour ses résultats parfois inintelligibles et qui semble aujourd’hui complètement dépassée. Elle a d’ailleurs été abandonnée par Google lui-même l’année dernière, au profit d’un réseau neuronal prenant davantage en compte des ensembles de phrases et leur contexte. Si cette nouvelle approche est encore balbutiante, le résultat est suffisamment bon et étonnamment pertinent pour que les chercheurs soient persuadés d’avoir trouvé un nouvel axe de recherche. Article complet La qualité Les contenus traités par des outils de traduction automatique sont-ils d’une qualité acceptable pour une organisation professionnelle? Qu’est-ce que la postédition et dans quelle mesure permet-elle d’améliorer la qualité d’une traduction automatique? Une citation qui donne matière à réflexion « L’ordinateur fait une première traduction puis reçoit une traduction humaine validée. La machine essaie de comprendre ses fautes et apprend. Au bout de 100 000 ou 1 million d’exemples, l’ordinateur s’est fait sa propre représentation de la langue en classant les mots et le vocabulaire de manière automatique. La traduction gagne en vitesse et en fluidité même si elle est encore loin de la qualité d’une traduction humaine. » Article complet Les bonnes pratiques À quelles fins et dans quelles situations peut-on vraiment tirer profit de la traduction automatique? Quels sont les meilleurs moyens de se protéger des risques? Y a-t-il de bonnes pratiques établies et éprouvées? Une citation qui donne matière à réflexion , TripAdvisor ou le navigateur Chrome, de Google, le proposent de plus en plus souvent aux internautes, quand ils ne l’imposent pas par défaut : « Voulez-vous traduire ce contenu en français? » Si ces propositions sont plus fréquentes, c’est que le résultat s’est considérablement amélioré en une poignée d’années. Certes, les textes traduits sont toujours maladroits, rarement exempts d’erreurs grammaticales ou de contresens. Mais ils sont souvent de qualité suffisante pour permettre au lecteur de comprendre le propos; à condition de ne pas entrer dans les détails ni de s’attacher aux nuances. Article complet Prochain article à surveiller Notre prochain article sur la traduction automatique portera sur la sécurité de l’information traitée par des outils de traduction automatique. Fiez-vous à Versacom pour vous aider à comprendre les risques et les solutions permettant de vous en protéger. DeepL : le nouvel outil de traduction automatique qui fait de l’ombre à Google Soumis par José Gambín le 28/12/2017. Les avancées de l’intelligence artificielle et leur application dans le champ de la traduction automatique n’arrêtent pas de nous surprendre. Même si nous avons plus l’habitude de nous focaliser sur les erreurs commises par les traducteurs automatiques, il faut avouer que les résultats qu’ils obtiennent sont chaque fois meilleurs. Au départ, les logiciels utilisés se contentaient de remplacer un mot par un autre, sans prendre en compte le contexte. Ce système n’était donc efficace que pour chercher du vocabulaire ou traduire des phrases courtes sans prendre en compte la structure syntactique ni la grammaire. Il a fallu attendre 2014 pour engager un véritable saut qualitatif. Cette année là, l’Université de Montréal a réussi, à travers d’un schémas, à ouvrir à la traduction automatique les portes du deep learning. Le deep learning, ou apprentissage profond en français, utilise à la fois les avancées des neurosciences, les réseaux neuronaux artificiels ainsi que des algorithmes pour améliorer les différents aspects de l’intelligence artificielle. Jusqu’à aujourd’hui, personne n’avait pu rivaliser avec le géant multidisciplinaire Google dont le système repose sur un corpus plurilingue enrichi quotidiennement. Le 29 août 2017, une entreprise européenne, DeepL, a dévoilé un nouvel outil de traduction automatique. Même si le nom de cette entreprise est inconnu, Linguee, le fameux dictionnaire en ligne, se cache derrière. Linguee offre à ses utilisateurs plusieurs propositions de traduction trouvées sur Internet, elles sont issues de corpus de documents publiés sur le Web. Le site permet aussi de consulter la source dans laquelle ces segments ont été trouvés, l’utilisateur peut donc décider si celle-ci est digne de confiance ou pas. L’immense base de données de ce moteur de recherche de traductions, alimenté par des sources fiables comme l’Union Européenne, sert de point de départ au niveau traducteur automatique qui peut y apprendre et s’entraîner. Les résultats sont spectaculaires dans de nombreux domaines : documents techniques, articles de presse, analyses sportives... Que se cache-t-il derrière d’aussi bons résultats? Pour des raisons stratégiques évidentes, l’entreprise n’a pas souhaité révéler son secret, mais il semblerait logique que son succès soit lié aux deux facteurs que nous exposerons ci-après : Dans un premier temps, l’une des clefs du succès d’un traducteur automatique est la qualité des traductions qui l’alimentent. Cette philosophie est d’ailleurs la ligne de conduite et l’une des raisons du succès de la société mère, Linguee. Avant d’être inclus dans leur base de données, n’importe quel texte doit obtenir une note minimum dans leur algorithme, validé par avance par un être humain. Face à la quantité de données manipulée par le géant Google, qui possède, soit dit en passant, plus d’un million de serveurs et de centres de données dans le monde, DeepL préfère la qualité. Dans un second temps, l’application du nouveau paradigme des réseaux neuronaux ou deep learning a permis une évolution notoire. Il est fort probable que les programmateurs de ce traducteur automatique aient utilisé, optimisé et personnalisé un paradigme d’apprentissage basé sur un des réseaux neuronaux existants. Mais il demeure facile de tromper un traducteur automatique. Lorsqu’il s’agit de traduire de longues phrases, des textes d’ordre littéraire, commercial, ou n’importe quel texte qui implique des connaissances culturelles, ses compétences sont encore très limitées. IFRAME: https://www.googletagmanager.com/ns.html?id=GTM-KKM2LLV Traduction automatique, robots écrivains... voilà la littérature du futur ! Par Nicolas Carreau Le cabinet de conseil Quantmetry et Deepl, un service en ligne de traduction automatique, ont configuré une intelligence artificielle pour qu'elle traduise un ouvrage de 800 pages de l'anglais au français en douze heures. Une autre IA a, elle, écrit un roman. Assisterons-nous à l'avènement des robots écrivains ? Sur les coups de 2 heures du matin, dans la ville endormie, un robot veille. Il regarde la Lune par la petite fenêtre de sa chambre mansardée. En admirant l'astre, il a levé sa plume d'oie, une goutte d'encre est tombée sur sa feuille de vélin et la tache s'agrandit à mesure que le papier la boit. Le robot constate alors les dégâts et le voilà encore distrait. Ses pensées vagabondent maintenant dans une autre direction et il se met à songer à la mer, inspiré par cette petite mare bleutée. Allez, au travail ! Il fait craquer les jointures de ses mains d'acier et se relance frénétiquement dans l'écriture de son grand roman. Cette scène, aussi singulière qu'elle paraisse, est peut-être en passe de devenir réalité. Une société spécialisée dans les big data, Quantmetry, s'est associée à un expert de la traduction automatique pour traduire un livre de 800 pages en douze heures. Le secret ? Faire ingurgiter à la bête des milliers d'exemples de tournures de phrases et de subtilités linguistiques. La traduction est, paraît-il, très fidèle à la version originale. Mise en abyme : le livre en question s'intitule, en anglais, Deep Learning, un livre technique sur l'intelligence artificielle. Le logiciel l'a traduit par Apprentissage profond. Subtil, en effet. Pour l'instant, les concepteurs sont modestes : «Elle est parfaite pour les contenus scientifiques mais elle ne saurait pas retranscrire la plume, ni le style d'un auteur», explique Alexandre Stora, le responsable de Quantmetry, au site Futura-sciences. Mais d'autres sont plus présomptueux, comme Ross Goodwin. Cet artiste américain et spécialiste des codes a équipé une Cadillac d'une caméra, d'un micro, d'une horloge et d'un GPS. Il a conduit la voiture de New York à la Nouvelle-Orléans et, à l'arrivée, son intelligence artificielle, forte des données récoltées, a produit un texte baptisé «1 the Road», référence au On The... Traduction automatique : traduire comme on joue au Go ? par François Yvon, billet paru dans le Journal du CNRS. Les récents progrès réalisés dans le domaine de l’intelligence artificielle impressionnent, comme l’a montré la victoire du logiciel AlphaGo sur le champion du monde de Go. Il y a pourtant des domaines qui résistent encore et toujours à la mise en algorithme, notamment la traduction. François Yvon, spécialiste du sujet, enseignant-chercheur à l'Université Paris-Sud et chercheur au Limsi, nous explique pourquoi. La récente victoire du logiciel AlphaGo surclassant le champion du monde de Go a relancé les spéculations sur l’intelligence des machines, ainsi que sur les limites et les dangers de leur développement. De nombreuses compétences humaines semblent pourtant résister à la mise en algorithme. Parmi celles-ci, la traduction, dont les efforts d’automatisation, entamés dès les années 1950, continuent de se heurter à des difficultés apparemment insurmontables. La méthode d’AlphaGo ouvre-t-elle de nouvelles perspectives pour résoudre cette tache, souvent présentée comme une des plus difficiles pour une intelligence artificielle ? trad alpha 515088082i La recette du succès d’AlphaGo est bien connue et prolonge une tradition de recherche déjà ancienne sur la modélisation des jeux. Le programme aborde une partie comme une succession de décisions locales et doit donc, pour bien jouer, développer deux compétences : - sélectionner le meilleur coup dans l’ensemble des coups autorisés, étant donné l’état courant du jeu, sur la base d’une évaluation de son bénéfice à long terme. Cela implique de prendre en compte toutes les réponses possibles de l’adversaire, puis les réponses à ces réponses, etc. Explorer exhaustivement cet arbre de possibilités est infaisable et demande de mettre en œuvre des stratégies heuristiques, qui font l’objet d’un apprentissage par AlphaGo ; - évaluer une position comme étant plutôt gagnante ou perdante, cette fonction d’évaluation étant également l’objet d’un apprentissage. AlphaGo réalise ces deux apprentissages avec des réseaux de neurones artificiels dits profonds, en analysant à la fois des parties réelles (jouées par des joueurs experts), mais également à partir d’un très grand nombre de parties artificielles, produites en faisant s’affronter deux versions du logiciel. Des traductions automatiques complexes à évaluer Qu’en est-il de la traduction automatique (TA) ? Comme pour le Go, les approches les plus efficaces à ce jour reposent essentiellement sur un apprentissage automatique. La traduction est ainsi modélisée comme une succession d’actions élémentaires, consistant à ajouter un mot à la traduction à chaque itération du système. Un bon système de TA doit donc savoir quel prochain mot produire parmi tous les mots de son dictionnaire, en tenant compte des mots produits antérieurement, ainsi, naturellement, que de la phrase à traduire. L’utilisation de méthodes statistiques similaires à celles déployées pour AlphaGo pour apprendre à faire ces choix a permis des améliorations considérables de la TA. Quelles en sont les limites ? "L’évaluation automatique de la qualité du résultat d’une traduction reste un défi difficile à relever. " Une première observation est que le calcul du meilleur coup à jouer demande que l’on puisse évaluer automatiquement le bénéfice escompté de chaque action : au Go, cette évaluation est simple et se déduit du résultat (gain ou perte) de la partie conduite à son terme. Il en va autrement en traduction : l’évaluation automatique de la qualité du résultat d’une traduction reste un défi extrêmement difficile à relever. Notons ensuite que, dans cette analogie, jouer un coup équivaut à produire un mot ; mais quel est l’équivalent d’une partie ? Les systèmes actuels traduisent chaque phrase indépendamment des autres phrases d’un texte : la « position » qui sert de base à chaque évaluation est ainsi réduite à un petit nombre de mots : de phrase en phrase des motifs se répètent, permettant au système de faire des généralisations utiles. Cette approche reste toutefois aveugle aux dépendances entre phrases et s’avère incapable par nature de garantir la cohérence des documents ainsi produits, que cette cohérence soit stylistique, discursive, sémantique ou référentielle. Des connaissances humaines difficiles à modéliser Ce qui nous amène à la seconde observation : apprendre demandant des exemples, en traduction, il faudra donc disposer d’un vaste corpus de traductions, réalisées si possible par des traducteurs qualifiés. La difficulté est que l’activité de traduction humaine porte sur des textes très particuliers : si l’on trouve facilement des traductions de romans, de textes juridiques, de documentations techniques, de sites Web ou autres supports de communication, les traductions de tweets ou de discussions sur des forums sont beaucoup plus rares, sans parler des traductions de conversations spontanées. Notons que, même les genres textuels les mieux représentés n’existent pas dans les mêmes quantités pour tous les couples de langues : des océans de données pour le couple anglais-français, quelques gouttes pour le couple malgache-inuktitut. "La traduction demande des connaissances sur les langues, mais aussi sur les cultures et sociétés entre lesquelles les écrits circulent." L’approche consistant à engendrer des données artificielles, par exemple en traduisant via une langue tierce dite pivot (le plus souvent l’anglais), est ici peu opérante, faute de pouvoir garantir la fiabilité de ces pseudo-traductions. Contrairement au Go, dont les règles, une fois programmées, permettent de produire à volonté des coups licites et des parties formellement correcte, la langue se laisse moins facilement modéliser. La génération de textes artificiels syntaxiquement corrects est une entreprise hasardeuse, et encore plus leur traduction automatique. Dernier problème, sans doute le plus ardu : la traduction n’est pas une activité naturelle. Elle demande des professionnels rompus à l’exercice et bien formés, ayant accumulé des connaissances variées, à la fois sur les langues source et cible, mais également sur les cultures et sociétés entre lesquelles les écrits circulent. Ces connaissances doivent être simultanément mobilisées, par exemple pour retranscrire les marqueurs linguistiques de politesse, dont l’emploi correct requiert une analyse fine du statut et des relations entre les différents acteurs d’une scène. Ces connaissances restent souvent implicites dans les textes ou dans les exemples de traduction, et l’approche statistique ne pourra jamais les apprendre que par approximation, s’exposant à des erreurs parfois catastrophiques. "Un domaine en plein essor auprès du grand public" La traduction automatique progresse année après année, et va continuer de s’améliorer grâce au développement de nouveaux algorithmes capables d’intégrer plus efficacement les données, ressources linguistiques et connaissances disponibles. Elle produit déjà des résultats utilisables pour de nombreuses applications, atteignant même des niveaux de qualité remarquables pour les documents les plus stéréotypés, par exemple les notices techniques. L’activité de correction humaine des traductions automatiques s’industrialise et permet, dans certains contextes, de produire à faible coût des traductions acceptables et vérifiées, facilitant le commerce et les échanges internationaux. La TA connaît également un fort succès auprès du grand public, qui l’utilise pour assimiler des textes écrits dans une langue inconnue, mais également, de manière détournée, pour rédiger en langue étrangère, parfois également dans des contextes d’apprentissage. Mais il est peu probable que, dans cet exercice, la machine surpasse un jour l’humain, sinon pour des tâches de traduction triviales. Entre comparaison et raison : la qualité de la traduction automatique Une comparaison détaillée des résultats de la traduction automatique statistique avec la traduction humaine met en évidence les points forts de la traduction humaine. Par Éric Poirier, docteur en traduction et traducteur agréé Depuis le début des années 2000, les modèles de traduction automatique statistique (TAS) connaissent des progrès importants dont les plus récentes méthodes sont expliquées dans Statistical Machine Translation^1, de Philipp Koehn, professeur à l’université Johns-Hopkins et figure de proue de la TAS. On retiendra surtout que ces systèmes utilisent comme point de départ d’immenses corpus de textes parallèles (déjà traduits par des professionnels) sans lesquels l’approche statistique ne produirait rien de valable. Pour les entreprises, les services de traduction automatique de Google Traduction, offerts gratuitement dans plus de 100 langues, se présentent aujourd’hui comme un outil d’optimisation de site Web. Mais qu’en est-il de la qualité de ces traductions d’un point de vue professionnel? Dans un article publié en 2012 dans L’Actualité langagière^2, André Guyon, expert-conseil en technologies de l’information et traducteur autonome, constate que « la traduction automatique donnera souvent des phrases d’aussi bonne qualité, voire meilleures, que celles de la mémoire de traduction quand on a affaire à des correspondances floues de haute qualité (pourcentage de correspondance élevé) ». Bref, la qualité semble être au rendez-vous, au moins dans le cas de certains types de correspondances. Et si les progrès techniques continuent leur évolution (rapide) des dernières années, on peut envisager une amélioration continue et sensible des résultats produits par la machine. Que peut-on prévoir alors des différences récurrentes qui subsisteront entre les traductions des systèmes de TAS et les traductions professionnelles? Cette question se pose avec d’autant plus d’acuité qu’on trouve de plus en plus d’études et de publications qui portent sur la comparaison entre les deux modes de traduction. Un constat qui peut surprendre La plupart des chercheurs et des spécialistes s’entendent sur le fait que la traduction machine de type probabiliste (TAS) est principalement défaillante sur le plan de la formulation en langue d’arrivée. Ce qui semble étonnant, par contre, c’est que le problème récurrent (le plus fréquent et le plus important en nombre) n’est pas celui de la traduction proprement dite, c’est-à-dire le résultat du transfert du sens en langue d’arrivée (le terme résultat est ici important, car il n’y a pas à proprement parler de transfert du sens) mais celui des relations grammaticales et textuelles entre les mots, termes et expressions transférés en langue cible. Cette situation concorde avec l’expérience subjective de certains langagiers selon laquelle les textes contiennent peu de notions, de concepts ou d’éléments de sens entièrement inédits, de sorte que leur traduction, assez bien établie, présente elle aussi un caractère prévisible que les statistiques textuelles permettent justement de mettre au jour. Un autre problème de la TAS, qui est étroitement lié à l’absence d’évaluation de la fluidité de la formulation en langue d’arrivée, est le fait que la TAS donne souvent lieu à des formulations (parties d’énoncés ou de segments) qui sont totalement dépourvues de sens. Même si les traductions humaines ne sont pas totalement exemptes de ces erreurs, ce qui caractérise la TAS c’est la récurrence et donc l’importance de ces problèmes dans les textes traduits. Ces conclusions concordent tout à fait avec les résultats d’une étude réalisée en 2013 par l’auteur de ces lignes sur les ruptures lexicogrammaticales (les propriétés formelles) de la traduction d’un texte produite (et révisée) par des traducteurs professionnels qui sont mises en évidence par comparaison avec la traduction d’un système de TAS (Google Traduction, en l’occurrence)^3. L’analyse et la catégorisation des différences textuelles constatées systématiquement dans la comparaison des segments des deux modes de traduction permettent de dégager trois principaux types de ruptures de la traduction humaine avec la traduction machine parmi une dizaine de catégories de ruptures entre les segments traduits automatiquement et les segments traduits par des professionnels (fait important, les ruptures ont été mesurées entre les deux traductions et non pas entre le texte source et le texte cible). Le tableau qui suit présente les données quantitatives sur ces trois types de ruptures ainsi que quelques exemples relevés dans la comparaison des deux modes de traduction étudiés : la traduction effectuée par Google d’un document publié par la Banque du Canada et sa traduction officielle diffusée sur le site Web de l’organisme. Le pourcentage indiqué désigne le rapport entre le nombre de ruptures de la catégorie sur l’ensemble des 1593 ruptures relevées dans le corpus. Les exemples fournissent les éléments essentiels du contexte (même si les segments ne sont pas complets) et les ruptures sont indiquées en caractères gras. Exemples de ruptures entre la TAS et la traduction professionnelle Types de rupture Texte source Traduction Google Traduction humaine Variantes codées - 344 sur 1593 (21,6 %) a) The expected pace of price increases has fallen (3); b) about the outlook; c) Firms affected by (2); d) For the third consecutive quarter; e) sales growth; f) indicating that; g) to expand their workforces; h) improvements in demand i) however a) Le rythme attendu de la hausse des prix a baissé (3); b) quant aux perspectives; c) Les entreprises affectées (2); d) Pour le troisième trimestre consécutif; e) une croissance des ventes; f) ce qui indique que; g) élargir leurs effectifs; h) amélioration prévue de la demande; i) cependant a) Le rythme prévu d’augmentation des prix a fléchi (3); b) à l’égard des perspectives; c) Les firmes touchées (2); d) Pour le troisième trimestre de suite; e) une progression de leurs ventes; f) ce qui signifie que; g) augmenter leurs effectifs; h) redressement prévu de la demande; i) toutefois Variantes fonctionnelles - 301 sur 1593 (18,9 %) a) Responses to the autumn survey indicate that (2); b) Western Canada; c) Firms reported; d) suggesting that; e) firms reported an improvement a) Les réponses de l’enquête de l’automne indiquent que (2); b) l’Ouest du Canada; c) Les entreprises ont déclaré; d) ce qui suggère que; e) Les entreprises ont rapporté une amélioration (a) Les résultats de l’enquête de l’automne révèlent que (2); b) l’Ouest du pays; c) Les entreprises ont indiqué; d) ce qui donne à penser que; e) Les entreprises ont observé une amélioration Postéditions obligatoires - 292 sur 1593 (18,3 %) a) The balance of opinion on employment edged up in the spring survey (Chart 4). (3) b) Indicators of pressures on production capacity are (2) a) Le solde d'opinion sur l'emploi a légèrement up dans l'enquête du printemps (Chart 4). (3) b) Indicateurs de tensions sur les capacités de production sont (2) a) Le solde des opinions concernant le niveau de l’emploi s’inscrit en légère hausse dans l’enquête du printemps (Graphique 4). (3) b) Les indicateurs des pressions s’exerçant sur la capacité de production sont (2) Dans le tableau précédent, le nombre entre parenthèses renvoie au nombre de ruptures de même type constatées dans le segment cité. Les variantes codées désignent des ruptures d’origine lexicale ou syntagmatique qui impliquent une substitution simple (pas de chassé-croisé, de réduction ou d’expansion dans les segments en cause) dont la relation synonymique est attestée par le dictionnaire en ligne du Centre de recherche inter-langues sur la signification en contexte (CRISCO) de l’Université Caen Normandie. Ainsi, les variantes fonctionnelles constituent une classe résiduelle qui réunit des mots de même sens en contexte qui ne sont pas des synonymes attestés dans le dictionnaire consulté. En pratique, les postéditions obligatoires désignent des ruptures qui représentent une faute ou une erreur de type grammatical ou autre dans le texte d’arrivée et qui nécessitent par conséquent une intervention corrective par un locuteur natif de la langue d’arrivée. Quelques statistiques à l’appui Une proportion de 21,6 % des ruptures lexicogrammaticales provient de l’emploi par les humains de synonymes codés des mots et expressions plutôt que du correspondant direct « statistiquement significatif » (abstraction faite bien sûr des autres mots déjà présents dans le texte traduit ou qui s’ajouteront à mesure que l’on traduit), tandis qu’un autre groupe de 18,9 % de ces différences provient des variantes fonctionnelles, ce qu’on pourrait appeler des raccourcis pragmatiques et textuels qui découlent de l’interprétation du texte source et du contexte d’énonciation (voir les exemples dans le tableau). Enfin, 18,3 % des différences proviennent des postéditions obligatoires, c'est-à-dire des erreurs de formulation et de grammaire (accords, régime incorrect, mauvaise préposition, etc.) que l’on trouve dans le texte traduit par la TAS mais qui sont absentes de la traduction humaine. À eux seuls, ces trois types de différences entre les deux modes de traduction représentent 58,8 % de toutes les différences constatées entre la traduction machine et la traduction humaine. Ces données permettent ainsi de chiffrer le constat exprimé précédemment selon lequel les lacunes des systèmes de traduction automatique proviennent principalement d’une mauvaise formulation en langue cible des concepts transférés de la langue source. En partant du principe que la traduction humaine est correcte et stylistiquement acceptable, on peut affirmer que la TAS échoue 58 % du temps en traduction spécialisée (le corpus étudié réunissait des extraits de textes économiques et financiers) par des choix lexicaux incorrects ou maladroits (40 %) ou par des erreurs de formulation en langue d’arrivée (18 %). Les variantes fonctionnelles auxquelles recourent fréquemment les traducteurs rappellent hors de tout doute que la traduction machine ne réfléchit pas (encore) et que seuls les humains peuvent faire des analogies et des inférences avec nos univers culturels ou spatio-temporels. La dernière rupture de l’exemple a) montre bien que la différence entre les deux traductions peut relever à l’occasion du choix du registre; général en TAS et spécialisé en traduction humaine. Et l’interprétation des différences entre les deux modes de traduction confirme aussi que les critères de qualité en traduction ne sont pas toujours discrets et polarisés. Dans la comparaison entre la traduction machine et la traduction humaine, il ne faut pas opposer la gratuité des systèmes de TAS aux services tarifés de professionnels mais plutôt aux coûts élevés que risquent d’entraîner les (nombreuses) erreurs de traduction des systèmes. Dans l’équation complexe de la qualité de la prestation des services de traduction, les risques que présente la traduction automatique et que met en évidence l’étude des ruptures lexicogrammaticales doivent être rapprochés avec les points forts de la TAS, à savoir sa gratuité relative (beaucoup de ressources doivent être consacrées à la constitution des corpus et à l’optimisation des systèmes), sa formidable rapidité d’exécution et, vraisemblablement, son indéniable justesse dans le transfert linguistique, laquelle est bien entendu fonction de la qualité des corpus bilingues mis à contribution en amont du processus. En matière de traduction, un service hautement culturel, dont la réussite se mesure de manières très différentes selon le type de texte à traduire (entre les pôles des textes littéraires et pragmatiques), on constate toujours que la perfection n’existe ni chez l’humain ni chez la machine. C’est en faisant preuve de pragmatisme devant l’inaccessible quête de la perfection qu’il faut envisager la cohabitation des produits et services de TAS avec la traduction professionnelle, cohabitation qui est d’ailleurs devenue réalité. Dans ce sens, comme pour ce qui est de tous les produits et services de l’intelligence artificielle (calculs complexes de théorèmes, traitement de la parole, interprétation d’images, robotique, jeux vidéo, systèmes experts et apprentissage automatique, etc.), la machine ne remplacera jamais l’être humain et il y va de l’intérêt de tous de confier à chacun des tâches dans lesquelles il excelle. Dans la logique marchande, les traducteurs ont tout intérêt à bien connaître les points forts et les points faibles de la TAS pour mieux mettre en évidence leur valeur ajoutée. Malgré tout le cynisme qu’a pu susciter l’arrivée des services de TAS, il faut envisager cette percée comme une avancée technique et ne pas hésiter à opposer à cette technologie des données objectives issues d’une comparaison systématique avec les résultats optimums obtenus par des professionnels de la traduction. Éric Poirier, est professeur agrégé au Département de langues modernes et de traduction à l’Université du Québec à Trois-Rivières, où il enseigne depuis 2011. De quoi la traduction automatique est-elle le nom ? par Caroline Rossi Depuis l’arrivée, à l’automne 2016, de nouveaux systèmes de traduction automatique dite « neuronale », basés sur des techniques issues de la recherche sur l’intelligence artificielle, la perspective de mettre l’automate au service du traducteur interroge. Mais cette « intelligence », comment l’a-t-on pensée ? « Je pense que Sarkozy à lui seul ne saurait vous déprimer. Donc, ce qui vous déprime, c’est ce dont Sarkozy est le nom. Voilà de quoi nous retenir : la venue de ce dont Sarkozy est le nom, vous la ressentez comme un coup que cette chose vous porte, la chose probablement immonde dont le petit Sarkozy est le serviteur. » Alain Badiou, De quoi Sarkozy est-il le nom ? Lignes, 2007 Qu’est-ce qui déprime les traducteurs ? Pour répondre à cette question hélas bien actuelle, la chronique linguistique « Johnson » publiée le 27 mai dernier dans l’hebdomadaire britannique The Economist identifie deux types de pressions : une pression matérielle liée à la concurrence internationale qui entraîne une baisse importante des tarifs, et une pression additionnelle issue de l’usage désormais généralisé de moteurs de traduction automatique toujours plus performants, susceptibles de réduire le travail du traducteur à un toilettage rapide de textes qu’il n’aura pas écrits. Mais la traduction automatique constitue-t-elle véritablement une quête technologique sans lien avec les pressions du premier type ? Lorsque les chercheurs interrogent les traducteurs, ceux-ci évoquent volontiers les « frictions cognitives » liées à la segmentation excessive des textes [1] qu’occasionne le travail dans un environnement de traduction assistée par ordinateur (TAO). Pour mieux comprendre ce que cela signifie, deux types d’approches sont actuellement privilégiés. D’une part, les approches cognitives et ergonomiques, qui placent le traducteur au centre de leurs préoccupations. Elles cherchent à appréhender les conséquences des nouvelles pratiques affectant la traduction dite pragmatique (non littéraire) et à analyser tous les facteurs qui exercent une influence sur le travail, sur le bien-être et sur l’identité des traducteurs [2]. D’autre part, les approches ethnographiques, qui s’attachent à rendre compte de la perception et du vécu subjectif de ces derniers. En substance, les chercheurs qui s’intéressent à ces questions nous apprennent que si l’usage désormais généralisé des mémoires de traduction (bases de données permettant de garder en mémoire des traductions déjà effectuées et de les convoquer à nouveau lorsque l’on rencontre des passages similaires) et l’intégration courante de la traduction automatique (TA) au poste de travail du traducteur permettent de travailler plus vite et de garantir la cohérence terminologique et phraséologique du texte traduit, les traducteurs perçoivent ces éléments comme autant de sources de frustration, car leur usage est presque toujours lié à des exigences de productivité accrues. Ne faut-il pas s’étonner de ces résultats discordants ? Comment expliquer que dans un contexte où les progrès technologiques sont extrêmement rapides, la perspective de mettre l’automate au service du traducteur semble toujours aussi lointaine ? La question se pose avec une acuité particulière depuis l’arrivée, à l’automne 2016, de nouveaux systèmes de traduction automatique dite « neuronale », basés sur des techniques issues de la recherche sur l’intelligence artificielle. Traduction automatique neuronale Caroline Rossi Schéma d’une traduction assistée par ordinateur En première approximation, on pourrait répondre en disant que les concepteurs de machines se soucient peu des traducteurs, et vice versa. Il existe en effet un écart considérable entre les travaux de recherche dont les nouvelles technologies de TA sont issues, et ceux qui s’attachent à décrire les usages et perceptions actuels. Il s’agit de deux types de discours portant sur la traduction, qui se développent indépendamment l’un de l’autre depuis des décennies. Dès la fin des années 1980, Antoine Berman distinguait d’ailleurs la traductique, définie comme « la théorie computationnelle des processus traductifs régissant l’ère technologique », de la traductologie qu’il appelait alors de ses vœux et qui caractériserait « la réflexion de la traduction sur elle-même à partir de sa nature d’expérience ». Pour éclairer cet antagonisme, on peut utiliser une méthode à laquelle la linguistique cognitive a donné ses lettres de noblesse : l’étude des métaphores, non pas comme figures de style, mais comme éléments constitutifs d’une pensée et d’une culture [3]. Pour l’auteure de ces lignes, qui est traductologue, il s’agit de comprendre le discours de la recherche Google, que l’on pourrait rattacher au champ de la traductique. Que dit Google ? Dans un petit corpus de dix articles très récents, issus de la recherche Google sur la traduction automatique, les composés les plus fréquemment utilisés pour parler de traduction montrent qu’elle est avant tout comprise comme une tâche modélisable, prise en charge par un système (informatique) : translation system, translation task, translation model. Cette tâche est conçue comme un calcul qui donne des résultats, d’où les composés également fréquents : translation performance, translation probabilities, translation results. S’il surprend toujours le traducteur humain et le traductologue, pour qui la traduction représente bien autre chose qu’une tâche ponctuelle et est irréductible au calcul, le recours à ce premier ensemble de métaphores n’est pas neuf. Il définit plutôt la conception traditionnelle de la traduction automatique, puisque c’est avec les premiers calculateurs qu’est apparue l’idée d’automatiser la traduction, après la Seconde Guerre mondiale. Un second ensemble de métaphores repérées dans notre petit corpus permet de cerner une conception beaucoup plus récente de la traduction automatique : celle qui est issue de travaux sur l’intelligence artificielle. La métaphore fondatrice est celle du cerveau-ordinateur, et les dernières modélisations utilisées l’ont renforcée, puisque l’on parle désormais de « réseaux de neurones » pour décrire l’architecture des systèmes. Plus saisissant encore : alors que les systèmes de TA statistique étaient entraînés sur de grands corpus de textes traduits, les systèmes de TA dits « neuronaux » sont le produit d’un apprentissage qui, pour rendre compte des modélisations en réseau à plusieurs niveaux, est même qualifié de « profond ». On le voit, la métaphore se déploie pour accompagner les progrès de la discipline, suggérant que l’on se rapproche toujours plus du fonctionnement du cerveau humain, peut-être même de la pensée humaine à laquelle on attribue le plus souvent la caractéristique d’être profonde, ou superficielle. Est-ce donc le cerveau du traducteur qui se trouve mis à nu ? Même si les publications de Google ne promettent rien de tout cela (et le traducteur n’est pas mentionné une seule fois dans notre corpus), le réseau métaphorique le suggère inévitablement. Enfin, le dernier composé le plus fréquemment utilisé dans les articles que nous avons rassemblés concerne la toute dernière innovation de Google : la traduction sans apprentissage, appelée « zero-shot translation ». Les progrès des modèles d’apprentissage profond se mesurent en effet à leur capacité de travailler à partir d’un seul stimulus (one-shot) [4]. La traduction sans apprentissage représente la toute dernière prouesse technologique, qui consiste à produire une sortie de traduction automatique dans une langue à laquelle le système n’a jamais été exposé. Cette fois, c’est la métaphore du jeu qui est utilisée, cette activité essentielle au développement de l’enfant dès son plus jeune âge, mais aussi à la socialisation, tout au long de la vie. Le jeu, au cours duquel on peut réussir à un tir gagnant sans entrainement (« Shot ! »), à condition d’avoir tenté sa chance (« I’ll give it a shot ! »). Ces machines qui tentent leur chance au jeu de la traduction, et dont on nous dit qu’elles y parviennent plutôt bien, sont à n’en pas douter conçues comme des automates dont l’ « intelligence » rivalisera peut-être un jour avec celle de l’homme. On est bien loin de l’outil que la main du traducteur pourrait façonner [5] : ce que promeut Google, c’est bien une machine à traduire, un mécanisme qui ne laisse plus à l’homme la liberté du jeu. Ces nouvelles machines à traduire ne suffisent probablement pas à déprimer les traducteurs, mais l’automatisation qu’elles annoncent n’est pas sans rappeler le passage de la manufacture préindustrielle à ce que Marx appelait la « Machinerie » industrielle. Au seuil d’un chapitre consacré à ces développements, Marx cite les Principes d’économie politique de John Stuart Mill : « On peut se demander si toutes les inventions mécaniques faites jusqu’ à ce jour ont allégé le labeur quotidien d’un quelconque être humain [6]. » Il y a malheureusement fort à parier que, dans le contexte actuel, les progrès de la traduction automatique ne seront pas de nature à abréger les journées de travail du traducteur. __________________________________________________________________ Caroline Rossi est Maître de Conférences à l’Université Grenoble Alpes et éditrice en chef de la revue de l’Association française de linguistique cognitive. 1. En général, il faut travailler phrase par phrase, parfois sur des segments encore plus courts, et si le texte est long on perd la vue d’ensemble : tout ceci est très bien expliqué dans les publications récentes de Sharon O’Brien (Dublin City University), ou de Maureen Ehrensberger-Dow (Zurich University of Applied Sciences) 2. Ce sont les termes d’Élisabeth Lavault-Olléon, qui a promu l’approche ergonomique dès 2010 à l’université Grenoble Alpes. 3. Les premiers travaux sont ceux d’un linguiste et d’un philosophe américains, et l’ouvrage est traduit en français : Lakoff, George & Johnson, Mark. 1985. Les métaphores dans la vie quotidienne, traduction de M. de Fornel en collaboration avec J.-J. Lecercle. Minuit. 4. « One-shot generalization » est le terme qui décrit en anglais cette aptitude à générer un ensemble d’éléments similaires à partir d’un seul élément, qu’il s’agisse de portions de textes ou d’images par exemple. 5. Notre corpus d’articles Google ne contient aucune mention d’outils de traduction ou d’aide à la traduction. 6. Karl Marx. Le Capital, Livre I. Le procès de production du capital, p. 416. Traduction établie sous la direction de Jean-Pierre Lefebvre, publiée en 1993 aux PUF. La traduction automatique en 2018, révolution ou désillusion ? Par Aurelien DEIXONNE le 6 mars 2018 Tweet Pin It Traduction automatique Quelle prodigieuse invention que le champ de traduction du TARDIS. En effet, dans la nouvelle série de 2005 de Doctor Who, le TARDIS permet de comprendre n’importe quel langage. Tardis-doctor-who-traduction-instantanee Le fameux TARDIS de Doctor Who (série BCC) Nous sommes évidemment bien loin de telle prouesse. Pourtant, le secteur de la traduction est en train de se digitaliser et de proposer des solutions de plus en plus alléchantes. Ainsi, nous entendons parler de traduction automatique venant révolutionner le domaine. Pourtant, on se souvient bien de Justin Trudeau, Premier Ministre canadien, dont la traduction en 2016 fut un réel fiasco. Voici le fameux extrait : IFRAME: https://www.youtube.com/embed/9LnjdfpiFS8?feature=oembed Toile de Fond vous propose aujourd’hui de faire une incursion dans le milieu de la traduction. La traduction révolutionnée par Internet Le marché de la traduction Il y a aujourd’hui plus de 6000 différentes langues parlées dans le monde. Avec 200 pays et plus de 7 milliards de personnes sur notre globe, la traduction est un secteur en constante progression. Le marché de la traduction se situerait à 45 milliards de dollars en 2020 avec une croissance annuelle aux alentours de 6%. Ce marché représenterait plus de 640 000 traducteurs ou interprètes et plus de 18 000 de sociétés. Ce marché en pleine expansion connait une véritable révolution technologique avec l’apparition d’Internet et l’usage de nouvelles technologies. Internet et ses solutions La traduction automatique Nous avons tous utilisé un jour ou l’autre Reverso, WordReference, Linguee.com ou encore Google Translate. Il y a encore quelques années, bon nombre de traductions laissaient à désirer, elles étaient approximatives. Les programmes se sont entre temps fortement améliorés. Créé en 2006, Google Translate traduit plus de 100 milliards de mots par jour pour plus de 500 millions d’utilisateurs. C’est ce qu’on appelle la traduction automatique. Traduction automatique Reverso Exemple de traduction automatique réalisée par Reverso De façon simple, la traduction automatique est une traduction effectuée par ordinateur, sans intervention humaine. Ce processus existe depuis les années 1950 et repose sur trois systèmes : Basé sur les règles : le programme associe règles grammaticales, linguistiques et dictionnaires de mots courants. Ils sont souvent améliorés par l’ajout de dictionnaires de langage spécifiques, comprenant les terminologies utilisées dans certains secteurs ou disciplines. Basé sur les statistiques : le programme ne connait pas de règle linguistique, il analyse des banques de données importantes pour chaque langue. Il permet des traductions plus fluides mais souvent moins cohérentes. Basée sur les algorithmes neuronaux (NMT) : cette nouveauté permet aux moteurs de traduire par le biais de plusieurs processeurs qui sont reliés comme les neurones d’un cerveau. Ce système est de plus en plus utilisé car il permet des traductions de plus grande qualité. Il s’agit d’un apprentissage supervisé : la machine propose une réponse puis reçoit la solution. Elle ajuste ensuite son traitement. Pourtant, ces solutions restent limitées. La machine traduit nos propos grâce à des algorithmes d’Intelligence Artificielle et une volumineuse banque de données de texte déjà traduits. Cependant, il est impossible pour la machine de traduire de l’humour ou des phrases bien trop compliquées. L’homme reste plus fiable que la machine L’International Interpretation and Translation Association et l’université de Sejong en Corée du Sud ont récemment organisé une compétition de traduction. Quatre professionnels ont été confrontés à Google Translate, Systran et l’application Papago de Naver. Ils devaient traduire quatre textes littéraires et non littéraires de l’anglais vers le coréen et du coréen vers l’anglais en moins de 50 minutes. IFRAME: https://www.youtube.com/embed/A4_kVmMlELo?feature=oembed Bien que les programmes aient été 5 fois plus rapides, ils ont obtenu un score de 28 points sur la qualité de la traduction. Les humains ont remporté la bataille avec un score de 49 points sur 60. Ces programmes peuvent suffire sur des traductions banales et quotidiennes. Cependant, des textes business, littéraires ou tout simplement longs, vont nécessiter un traducteur humain. En effet, une langue a son propre humour, ses codes éthiques et sociétaux, elle évolue au fil du temps. Le texte s’inscrit dans un contexte et peut nécessiter un langage familier ou au contraire soutenu. Ces niveaux de complexité sont trop élevés pour la machine. La technologie, support clé des traducteurs Les sociétés de traduction ont bien cerné l’utilité de ces technologies comme avantage concurrentiel. Leurs clients nécessitent des traductions toujours plus rapides et de qualité. C’est notamment le cas de Textmaster qui utilise les technologies de traduction pour améliorer la rapidité et l’efficacité de ses traductions. Cette agence de traduction complètement numérique se base sur une complémentarité humains/machine pour offrir des traductions de qualité dans plus de 50 langues, et ceci en un temps minimal. La qualité humaine repose sur leurs traducteurs experts exclusivement natifs qui sont notés systématiquement après une traduction. Pour améliorer cette efficacité, TextMaster a développé Memento™ qui sauvegarde les précédentes traductions réalisées et identifie les répétitions. Cela permet aux clients de modifier une partie de leurs fichiers en temps réel et ce à moindre coût. L’agence propose aussi des intégrations directement aux interfaces de vos clients. Cette API permet ainsi d’économiser du temps et d’automatiser le processus. L’expertise humaine combinée à la technologie digitale permet ainsi à l’agence de livrer les commandes en moins de 24h en moyenne. IFRAME: https://player.vimeo.com/video/159184751 Il ne faut donc pas croire qu’il y a une guerre entre traducteurs automatiques et professionnels humains. Au contraire, il y a une réelle complémentarité, les seconds pouvant ainsi gagner en qualité, compétitivité et réactivité. La technologie de mémoire de traduction de TextMaster en est un exemple concret. Si vous souhaitez en savoir plus je vous invite à découvrir leur site Internet où tout est clairement expliqué. Mais, Aurélien, n’as-tu pas entendu parler des Intelligences Artificielles (IA) qui ont appris une langue sans dictionnaire ? Qu’en est-il des oreillettes Pilot et des autres produits de ce genre ? Intelligence Artificielle et gadgets technologiques, le futur de la traduction ? Le Machine Learning des Intelligences Artificielles linguistiques Plusieurs Intelligences Artificielles bilingues pouvant apprendre une nouvelle langue sans utiliser un dictionnaire existant et sans aide humaine ont été développées ces derniers temps. C’est notamment ce qu’ont réussi à faire indépendamment Mikel ARTETXE, ingénieur informaticien à l’universalisons de San Sebastian, et Guillaume LAMPLE, ingénieur français travaillant dans le département de l’IA de . Pour se faire, ils ont développé une 4^ème méthode : l’apprentissage automatique non supervisé. Pour se faire, ils repèrent les mots qui sont associés ensembles (fourchette, couteau par exemple), quelle que soit la langue. La machine va alors avoir un mapping de l’ensemble de ces connexions. L’Intelligence Artificielle va ensuite comparer chaque mapping dans chaque langue et ainsi obtenir son dictionnaire bilingue. C’est ce qu’on appelle le « Machine Learning ». Intelligence Artificielle Traduction Automatique L’Intelligence Artificielle autodidacte ? A l’heure actuelle, cette IA peut traduire des phrases complètes. Pour se faire, elle utilise deux techniques : La back translation : la machine traduit approximativement la phrase puis la traduit à nouveau dans sa langue d’origine. Si le résultat n’est pas identique, le réseau va ajuster son système de traduction. Le denoising : l’IA va ajouter ou retirer des mots et la traduire à nouveau. Le but : l’IA apprend er une structure simplifiée et non pas un simple « copier coller » de la phrase. Le progrès est certes incroyable par rapport à ce qui faisait auparavant. Cependant, les deux systèmes ont récolté chacun un score de 15 pour l’anglais/français, français/anglais là où Google Translate possède un score de 40 et les traducteurs humains un score de 50. C’est donc 3 fois moins fiable qu’un expert. Les gadgets technologiques Certaines sociétés proposent des gadgets permettant de briser les barrières linguistiques. Les oreillettes The Pilot, Google Pixel Buds ou encore Travis Translator. Google Pixel Buds Les Google Pixel Buds suscitaient beaucoup d’attentes depuis leur annonce. Pour un prix de 179€, ces écouteurs sont connectés à votre smartphone. Vous demandez de l’aide à Google pour traduire une phrase et celui-ci la traduit. Il le fait à haute voix si vous parlez ou vous transmet via l’oreillette si vous « recevez » la phrase. Le service propose une traduction dans 40 langues. Cependant, la traduction reste approximative car il n’y a que peu d’intonation lors de la lecture des traductions. De plus, la machine peut mal comprendre les propos selon la vitesse de prononciation, l’accent ou autres facteurs humains. Le bruit environnant vient aussi biaiser le résultat. Travis Translator Travis Translator se présente comme le premier traducteur vocal universel au monde. Il a réussi sa campagne de financement Indiegogo avec plus de 3500 investisseurs pour un total de 630 000 dollars. Il repose sur un système d’intelligence Artificielle, d’apprentissage dynamique et d’une technologie de reconnaissance vocale qui se veut avancée. Son but est de traduire instantanément et précisément les conversations. La reconnaissance vocale permet à Travis de traduire votre voix, vous permettant ainsi de vous concentrer sur votre interlocuteur. Sur le papier, cela semble prometteur, pourtant sa note est de 2.7 étoiles sur 4 sur sur 153 avis. Bien que certains semblent satisfaits, beaucoup mettent en avant « l’absurdité des traductions » et la lenteur d’exécution. The Pilot Les oreillettes The Pilot de Waverly Labs ont levées plus de 4 millions de dollars sur indiegogo. Elles sont reliées en bluetooth à un téléphone. Une oreille est pour soi, l’autre pour l’interlocuteur. Quand vous parlez, l’autre entend la version traduite et vice versa. Cela ne marche évidemment que si la personne a aussi une oreillette, oubliez donc les traductions pour des groupes. De plus, il y a un temps d’attente entre la phrase prononcée et sa version traduite. Le bruit ambiant entraine aussi des difficultés de traduction. Leur prix de vente est de 114€. Je ne vais pas vous faire ici un listing de toutes les solutions actuellement proposées. SwiftScribe, MymanuClick ou encore Translate One2One, ce marché est en pleine expansion et, à terme, va sans aucun doute révolutionner un certain nombre d’industries et améliorer les interactions humaines. Cependant, la plupart de ces technologies laissent un goût amer car elles ne répondent pas encore aux attentes des utilisateurs. De plus, leur coût reste élevé. Cependant, il est important de rapeler que l’Intelligence Artificielle évolue car elle apprend. Il est donc probable que d’ici quelques années, la machine se rapproche fortement de l’Homme grâce au Machine Learning. Mais peut-on réellement se passer d’experts linguistiques pour des traductions littéraires, humoristiques ou très techniques ? Le niveau de complexité en termes d’us et coutumes, d’intonation et de spécificités linguistiques reste très (trop ?) élevé. C’est un des défis majeurs que devront affronter les concepteurs d’Intelligence Artificielle pour accéder à une traduction automatique de qualité. Si l’article vous a plu, n’hésitez pas à liker notre page et à vous abonner à notre newsletter ! Merci à Rémy Hérault pour l’image à la une de l’article. Tumeurs et tremblements : les dangers de la traduction automatique « Plutôt que de m’inquiéter de la perspective d’être un jour remplacé par une machine, je préfère m’émerveiller devant les capacités de la nouvelle génération de programmes de traduction. » [facebook-square.svg] Partager [twitter.svg] Tweet par Arthur Goldhammer | Il y a quelques années, sur un vol Amsterdam-Boston, deux nonnes américaines assises à ma droite écoutaient religieusement un jeune hollandais volubile, dont c'était le premier voyage sur le continent américain. Le type avait de nombreuses questions en tête, et ne se privait aucunement de les poser. Il demanda à ces dames, entre autres, quelle était leur destination. Hélas, à son grand regret, Framingham (Massachussetts) ne faisait pas partie de la liste des villes qu'il avait l'intention de visiter. « Si j'avais des tonneaux de temps, je visiterais des tonneaux d'endroits, » conclut-il alors, morose. Ce personnage jovial croyait de toute évidence que « tonneaux » était un adverbe intensif qui pouvait avantageusement se substituer à « beaucoup », « plein », ou encore « des tonnes ». Il maitrisait plus ou moins la syntaxe de notre langue, disposait de toute évidence d'un vocabulaire plutôt étendu. Malheureusement il n'avait pas l'expérience suffisante pour comprendre quels mots étaient appropriés à tel ou tel contexte, et quels mots étaient destinés à un usage métaphorique ou satirique. Ce souvenir m'est revenu immédiatement lorsque j'ai appris que le moteur de Google Translate allait abandonner son ancien système, exploitant une base de données de phrases, au profit d'un système appuyé par des réseaux de neurones. (Les différences techniques sont décrites ici.) Les deux méthodes reposent sur l'entrainement d'une machine sur un « corpus » composé de paires de phrases : la phrase d'origine et sa traduction. La machine génère ensuite une série de règles d'inférence, et à partir de la séquence de mots du texte d'origine, elle déduit la séquence de mots la plus probable dans la langue cible. Cette opération consiste en fait à faire correspondre des patterns linguistiques. Des algorithmes similaires sont utilisés pour interpréter les sons que vous prononcez lorsque vous demandez à votre smartphone de calculer un temps de trajet dans Paris, ou lorsqu'une application photo tag le visage d'un de vos potes. La machine ne comprend ni les visages, ni les destinations ; elle les réduit à des vecteurs de nombres, puis effectue les calculs qui s'imposent. Je suis traducteur professionnel. J'ai traduit 125 livres écrits en français. On pourrait donc s'attendre à ce que je sois terrifié par l'annonce de Google selon laquelle son nouveau moteur de traduction égalerait un traducteur humain (ses traductions sont notées en moyenne 5.0 sur une échelle de 0 à 6, tandis que les traductions des humains sont notées 5.1 en moyenne). Cependant, je possède également un doctorat de mathématiques, et j'ai développé un logiciel qui « lit » les journaux européens écrits dans quatre langues différentes, puis en classe les articles par thème. Aussi, plutôt que de m'inquiéter de la perspective d'être un jour remplacé par une machine, je préfère m'émerveiller devant les capacités de la nouvelle génération de programmes de traduction. Je suis également plein d'admiration pour la complexité technique et la virtuosité du travail des ingénieurs de Google. Mon admiration ne m'empêche pas d'être préoccupé par les conséquences de la généralisation de la traduction automatique, cependant. Pensez au jeune voyageur hollandais qui connaissait des « tonneaux » de français. Son habileté à converser montre que son « wetware » - son cerveau, ou son réseau de neurones biologique, si vous préférez - a été suffisamment bien entraîné pour lui permettre d'intégrer les règles subtiles (et les exceptions) d'une langue naturelle qui n'est pas sa langue maternelle. Les langages informatiques, à l'inverse, possèdent une grammaire non contextuelle. Le jeune Néerlandais ne possédait pas une expérience sociale anglophone suffisante pour saisir les règles fines qui façonnent la diction, le ton et la structure du discours d'un locuteur natif, qui, dans certains contextes, choisit d'ailleurs de briser ces règles pour provoquer un effet particulier. De par sa connaissance imparfaite du français, notre homme s'est transformé malgré lui en comédien. Le moteur de traduction de Google est « entrainé » sur des corpus variés : manuels d'utilisation, articles Wikipédia, articles de presse, etc. Une rapide description du corpus en question constitue l'unique indication dont dispose le programme sur le contexte d'où provient la source. A partir de ces maigres informations, il est difficile de déduire la pertinence ou l'inadéquation d'un mot comme « tonneau » dans un contexte non spécifique. Quelle que soit le niveau de sophistication des algorithmes utilisés, ils doivent s'appuyer sur un contexte pour être en mesure de traduire correctement un discours donné. Or, ce contexte est très difficile à retranscrire sous la forme de lignes de code. Prenez l'expression « petite phrase ». Phrase peut être traduit par sentence ou phrase en anglais. Lorsque Marcel Proust l'utilise dans un contexte musical dans son romain À la recherche du temps perdu, en disant « la petite phrase de Vinteuil », il faudrait traduire par phrase, car sentence n'aurait aucun sens. Google Translate (l'ancien système – le nouveau n'est disponible qu'en mandarin pour le moment) s'en sort très bien avec ce genre de problème. Si vous écrivez « petite phrase » hors de son contexte, il traduit par short sentence. Maintenant, si vous tapez « la petite phrase de Vinteuil » (dans le roman, le personnage est un compositeur), il traduira par Vinteuil's little phrase, pour correspondre aux traductions publiées du texte de Proust. La rareté du nom « Vinteuil » fournit aux algorithmes statistiques un contexte utile à leurs recherches. En revanche, il vous crachera « little phrase Sarkozy » au lieu de « Sarkozy's zinger » : dans un contexte politique (indiqué par la mention de l'ancien président), « la petite phrase » est l'équivalent de « la petite pique de », c'est-à-dire une remarque ironique adressée à un adversaire politique. Cependant, le nom de Sarkozy apparait désormais dans une telle variété de contextes que l'algorithme statistique échoue à déterminer lequel, ici, est le plus pertinent. Google Translate ne parvient alors qu'à produire un malheureux solécisme. Le problème, qui a miné d'ailleurs toutes les tentatives passées de mettre au point une IA forte, c'est que l'intelligence humaine est incroyablement complexe. Être intelligent, ce n'est pas seulement parvenir à effectuer des inférences logiques à partir de règles ou de régularités statistiques. Être intelligent, c'est avant tout comprendre quelles règles sont applicables dans tel ou tel contexte. C'est posséder une certaine sensibilité aux situations, qui ne peut être totalement objectivée. Les développeurs sont certes des gens intelligents, mais ils ne sont pas tout puissants ; il leur est impossible d'anticiper la variété des contextes à partir desquels un sens est susceptible d'émerger. Dans ces conditions, même les algorithmes les plus efficaces échoueront toujours à traduire certaines phrases, puisque, comme le faisait remarquer Henry James, le traducteur idéal est celui qui « connaît tout du monde. » Cela ne signifie pas pour autant que la traduction automatique est inutile. Après, la plus grande partie du travail du traducteur est assez inintéressante, et s'effectue selon une certaine routine. Les machines peuvent faire du bon boulot (pour traduire des textes techniques très stéréotypés, par exemple). Il ne faut cependant pas trop en attendre de leurs capacités, surtout sur des textes littéraires, critiques, poétiques, politiques. Le champ de l'intelligence artificielle a beaucoup souffert des attentes démesurées du public, des médias, et même des scientifiques et ingénieurs. À titre personnel, je ne risque plus de m'inquiéter pour l'avenir de mon job : je ne traduis plus, j'écris du code. Arthur Goldhammer est auteur, traducteur, universitaire, blogueur, et spécialisé en politique française. Il a traduit plus de 120 ouvrages du français, dont De la démocratie en Amérique de Tocqueville et Le Capital au XXIe siècle de Thomas Piketty. Il est affilié au Centre d'études européennes de Harvard, et ses écrits sont parus dans The American Prospect, entre autres. Il vit à Cambridge, dans le Massachusetts. Une première version de cet article a été publiée sur Aeon, puis republiée sous Creative Commons. Amazon planche sur un service de traduction automatique Nelly Lesage Nelly Lesage - 27 juin 2017 - Tech Accueil Tech Amazon planche sur un service de traduction automatique Amazon va-t-il concurrencer Google et Microsoft sur le marché de la traduction automatique ? L'entreprise de e-commerce travaille en interne sur un outil de traduction, développé par la startup Safaba, rachetée en 2015 par Amazon. Amazon est engagé sur de nombreux fronts. Impliquée dans la course aux voitures autonomes, prête à se lancer dans la fabrication de vêtements sur mesure, l’entreprise de Seattle poursuit aussi son projet d’importer en Europe ses magasins sans caisse et sans queue. La firme semble à présent vouloir proposer ses services en matière de traduction, avec un outil capable de traduire des sites et des applications dans plusieurs langues. Celui-ci serait intégré à sa division Amazon Web Services. Concurrencer Google et Microsoft ? S’il voit effectivement le jour, un tel service devra s’accommoder de la concurrence de Microsoft et Google, qui proposent déjà aux entreprises leurs propres interfaces de programmation dédiées à la traduction. Google Traduction, notamment, a fait fin 2016 un important bond en avant en recourant à l’intelligence artificielle. En interne, un groupe de recherche au sein Amazon travaille déjà sur des outils de traduction automatique, dans les locaux de l’entreprise à Pittsburgh. Le programme a été confié à Alon Levie, le cofondateur de la startup Safaba, spécialisée dans les logiciels de traduction — et rachetée en septembre 2015 par Amazon. En interne, la startup Safaba mène des recherches sur la traduction automatique Pour l’instant, Amazon se refuse à tout commentaire. Le géant du commerce électronique propose à l’heure actuelle plus de 70 services différents sur AWS, sa plateforme dédiée aux services de cloud computing. Cette dernière généré un chiffre d’affaires de plus de 3,6 milliards de dollars au dernier trimestre. Si nous utilisons des cookies et retenons des données anonymisées, c’est pour nous aider à mieux faire notre travail de mesure d’audience, aider nos partenaires commerciaux à nous rémunérer et nos partenaires publicitaires er des annonces qui vous correspondent. Bref, rien qui ne sort de notre activité de média. Vous pouvez toutefois ajuster les paramètres vous concernant : vous ne verrez pas moins de pub sur Numerama, mais elles seront moins ciblées. En cliquant sur « J'accepte », vous acceptez l'utilisation par Numerama de cookies publicitaires et de mesure d'audience fine. /file> #Flux Lancée pendant la Guerre froide conjointement aux Etats-Unis et en Union soviétique, la traduction automatique a connu son heure de gloire avant d’être supplantée par l’essor des mémoires de traduction. Délaissée par les traducteurs, la traduction automatique sert-elle encore à quelque chose ? Est-ce qu’elle présente encore un intérêt compte tenu des « erreurs » qu'elle génère ? Après avoir recensé les problèmes posés par la traduction automatique, cette contribution tentera de présenter les avantages et inconvénients de la post-édition d’un texte traduit automatiquement par rapport à la traduction par écrasement. The glory days of machine translation, which was developed during the Cold War period in the US and in the Soviet Union, came to an end with the rise of translation memories. Currently machine translation is ignored by translators, and the question may be asked whether it can still be of use. Is it still relevant in light of the "errors" it produces? After identifying the problems of machine translation, this paper will present the advantages and disadvantages of post-editing an automatically translated text, and will compare these findings to a direct translation using translation memories. ________________________________________________________________________ PLAN / SECTIONS INTERNES __________________________________________________________________ Introduction Les fonctions de la traduction automatique (TA) Les treize péchés capitaux de la TA Premier problème, polysémie et homonymie Deuxième problème, l’ambiguïté syntaxique Troisième problème de la TA, l’ambiguïté référentielle Quatrième problème, les expressions floues (fuzzy hedges) Cinquième problème, idiotismes et métaphores Sixième problème, la néologie Septième problème, les noms propres Huitième problème, les mots d’origine étrangère et les emprunts Neuvième problème, les séparateurs Dixième problème, les sigles et les acronymes Onzième problème, les synonymes Douzième problème, la transposition Treizième problème, l'orthographe Traduction par écrasement et post-édition Avantages et inconvénients de la traduction par écrasement Avantages et inconvénients de la technique de post-édition Conclusion ________________________________________________________________________ TEXTE INTÉGRAL __________________________________________________________________ Introduction Lancée pendant la Guerre froide conjointement aux Etats-Unis et en Union soviétique, la traduction a connu son heure de gloire jusqu’à la publication du rapport ALPAC en 1966 par la National Science Foundation, qui concluait à l'impossibilité d'une traduction automatique de qualité. Elle a connu par la suite un renouveau en Europe jusqu’au constat d’échec du projet Eurotra. Désormais, la traduction assistée par ordinateur et l’essor des mémoires de traduction ainsi que des très grandes mémoires de traduction en ligne, alimentées par les traducteurs clients, a supplanté la traduction automatique même si cette dernière connaît cependant un regain de popularité sur la toile et en Traitement Automatique des Langues grâce au développement du modèle statistique et à la création de l’outil Google translate. Est-ce que celle-ci sert encore à quelque chose ? Est-ce qu’elle présente encore un intérêt pour le traducteur compte tenu des « erreurs » qu'elle génère ? Nous allons tenter de répondre à ces questions en opposant les méthodes de la traduction par écrasement telle qu'elle est pratiquée par la majorité des traducteurs et la post-édition d'une ébauche traduite automatiquement. Les fonctions de la traduction automatique (TA) Selon John Hutchins (Hutchins, 2004 : 13-18), quatre fonctions particulières sont assignées à la traduction automatique : La première fonction, ou « fonction de dissémination », consiste à produire un brouillon traduit du texte qui devra par la suite être post-édité manuellement pour aboutir à une traduction correcte. La deuxième fonction, ou « fonction d’assimilation », consiste à extraire des informations à partir du texte traduit automatiquement, sans considération pour la qualité du texte cible. La troisième fonction, ou « fonction d’échange », consiste à utiliser la traduction automatique comme « interprète » de textes électroniques devant être traduits simultanément, comme par exemple les « chats », les pages web ou les courriers électroniques rédigés dans une langue étrangère. La quatrième fonction assignée à la traduction automatique est celle d’outil d’accès à l’information en langue étrangère par l’interrogation d’un système de base de données. Notons que l’accès à une base de données par l’intermédiaire d’un logiciel de traduction automatique permet de recueillir des informations non-textuelles, comme des images, mais ce n’est pas ici notre propos. En dehors de la fonction de dissémination, et plus rarement de la fonction d’assimilation, le recours au traducteur humain n’est pas prévu pour le genre de tâches assignées à la traduction automatique. Il faut donc se poser la question de savoir si une post-édition d’un document traduit automatiquement peut présenter de l’intérêt par rapport à une traduction par écrasement comme elle est pratiquée par la plupart des traducteurs. Pour illustrer notre propos, tous les exemples authentiques ou construits recensés dans cette contribution ont été soumis à une traduction automatique à l'aide de la dernière version (payante) du logiciel de traduction automatique Systran V6 Premium Translator fonctionnant sur le modèle du transfert ainsi qu’avec l’outil de traduction (gratuit) de Google, Google translate1, fonctionnant sur le modèle statistique développé par Franz Josef Och. (Och & Ney, 2004). Précisons néanmoins que certains services de traductions gratuits sur la toile comme Yahoo ! ou Babelfish utilisent également Systran comme moteur de traduction. Pour simplifier, alors que les systèmes par transfert analysent le texte en langue source, en transfèrent les éléments lexico-syntaxiques dans la langue cible pour générer un texte en langue cible sur la base d’un modèle de langue complexe, les systèmes statistiques puisent à l’aide de modèles mathématiques compliqués dans d’immenses corpus parallèles des portions de textes déjà traduits pour les réassembler dans des phrases en langue cible. D’un point de vue purement linguistique, le modèle de langue est beaucoup plus élégant, il est toutefois nettement plus difficile à mettre en œuvre du fait que la langue a tellement d’irrégularités et d’idiosyncrasies, que les formaliser toutes semble illusoire. Le modèle statistique s’affranchit sinon totalement, du moins en grande partie d’une analyse linguistique. Comme pour les mémoires de traduction, il s’agit de piocher des séquences de textes déjà traduites, l’art résidant dans l’assemblage et la construction d’un texte entier, ce que ne fait pas la mémoire de traduction. Le modèle statistique s’est donc presque affranchi du linguiste et demeure la chasse gardée des informaticiens et des mathématiciens. Bien entendu, comme pour les mémoires de traduction, pour que le modèle fonctionne bien, il faut que les corpus soient à la fois nombreux et de bonne qualité. Les treize péchés capitaux de la TA Dans un article déjà très ancien, Anne-Marie Loffler-Laurian (Loffler-Laurian, 1983 : 65-78) relève douze catégories d’erreurs générées par le système Systran. Plus d’un quart de siècle plus tard, on relève toujours les mêmes erreurs, même si les systèmes de traduction automatique, notamment avec l’arrivée des systèmes statistiques (Brown et al., 1993) et des modèles factorisés (Koehn, 2007) ont fait de notable progrès quant aux paires de langues désormais accessibles. Pour notre part, nous avons relevé treize types d’erreurs générés par les systèmes de traduction automatique. Polysémie et homonymie Ambiguïté syntaxique Ambiguïté référentielle Termes flous ou Fuzzy hedges Idiotismes et métaphores Néologie Noms propres Mots d'origine étrangère et emprunts Sigles et acronymes Séparateurs Synonymes Transposition Orthographe Passons en revue ces différents problèmes. Nous illustrerons notre propos d’exemples traduits en français, anglais et allemand. Premier problème, polysémie et homonymie La polysémie constitue le problème le plus souvent signalé en matière de traduction automatique. Les mots ne fonctionnent pas tant comme des unités discrètes, c'est-à-dire bien délimitées et séparées les unes des autres, mais comme des occurrences sujettes à un certain nombre de variations sémantiques au sein d'un champ. La polysémie, pluralité de significations au sein d’un continuum sémantique pour un même mot, pose problème également au traducteur humain pour qui il est parfois difficile de trouver la nuance exacte. Tantôt la polysémie se retrouve d’une langue à l’autre (exemple 1), tantôt pas (exemple 2). Exemple 1 : la traduction de l’adjectif polysémique « libre » la voie est libre (non encombrée) l'entrée est libre (gratuite) le prisonnier est libre (n'est plus en captivité) the way is free (not encumbered) the entry is free (free) the prisoner is free (is not any more in captivity) [Systran] der Weg ist frei (nicht überfüllt) der Eingang ist frei (kostenlos) das Gefangene ist frei (ist nicht mehr in Gefangenschaft) [Systran] Exemple 2 : la traduction de l’adjectif polysémique « léger » Ce sac à dos est léger. (a peu de poids) Le directeur est léger dans son travail. (est négligent) Marie est une femme légère. (aimant le plaisir sexuel) This backpack is light. [Google] The director is light in his work. [Google] Mary is a woman lightly. [Google] Dieser Rucksack ist leicht. [Google] Der Direktor ist leicht in seiner Arbeit. [Google] Marie ist eine Frau leicht. [Google] L’homonymie qui concerne des mots de même graphie et de sens radicalement différents pose également des problèmes : Exemple 3 : la traduction de l’homonyme « avocat » (homme de loi + fruit) Julia aime son avocat. (le fruit est inconcevable) Julia aime les avocats. (juristes et fruits sont concevables) Julia loves its lawyer. Julia loves lawyers. « lawyer » est la seule variante connue de Systran et de Google. Julia mag ihren Rechtsanwalt. [Systran] Julia mag die Rechtsanwälte. [Systran] Julia mag sein Anwalt. [Google] Julia liebt die Anwälte. [Google] Le fruit est ici aussi passé sous silence. L'un des problèmes de la traduction automatique est qu'en règle générale, très peu de variantes lexicales sont présentes. C'est un problème de dictionnaire électronique qui peut être résolu et certains programmes, comme Reverso Pro, proposent des variantes de traduction dans la mesure où une unité comporte des homonymes. Deuxième problème, l’ambiguïté syntaxique L'ambiguïté syntaxique est le second problème couramment évoqué, il apparaît du fait que certaines structures syntaxiques ne sont pas claires sans connaissance du monde : Exemple 4 : to fly gliders and to clean fluids Cleaning fluids can be dangerous (cleaning fluids mais pas to clean fluids) Flying gliders can be dangerous (double interpretation : flying gliders et to fly gliders) To clean fluids can be dangerous To fly gliders can be dangerous En anglais, les verbes « to fly » et « to clean » sont transitifs. Il existe cependant une restriction quant aux arguments ayant la fonction d’objet direct. Ainsi « to fly » demande comme objet un « objet volant ». Bien que moins sélectif quant à la nature de l’objet, « to clean » est incompatible avec « fluids ». L'ambiguïté syntaxique fait appel au contexte argumental et ne peut être résolue que par la prise en compte du niveau lexico-syntaxique (Gross, 1995 :16-19). Troisième problème de la TA, l’ambiguïté référentielle La question de la référence (rapport entre le texte et la part non linguistique de la pratique où il est produit et interprété) est une question d'interprétation qui suppose par définition une interprétation cognitive. Les pronoms réfèrent ainsi à certains mots ou antécédents qui ne sont pas toujours clairs sans connaissance du monde. La traduction automatique est effectuée phrase par phrase et les référents peuvent se situer hors d’une phrase particulière. Exemple 5 : le pronom « le » et son référent Paul a heurté le vase du pied et l'a cassé. (le vase ou le pied?) Paul ran up against the vase of the foot and broke it. [Systran] Paul struck the foot of the vase and broke. [Google] Paul ist sich den Schlamm des Fußes gestoßen und es hat gebrochen. [Systran] Paul schlug die Vorlage des Fußes und brach. [Google] L'ambiguïté référentielle fait aussi appel à la connaissance du monde plus que du contexte et dans l'état actuel de la TA, ne peut être résolue de façon satisfaisante. Quatrième problème, les expressions floues (fuzzy hedges) Ce sont des mots ou groupes de mots au caractère idiomatique marqué, donc très dépendants de l'organisation sémantique de la langue source, qui sont difficiles à traduire et dont le rôle est d'exprimer une approximation – ”words whose job it is to make things more or less fuzzy” selon Lakoff (Lakoff, 1972 : 183). À titre d'exemple on relèvera « en fait », « d’ailleurs », « en un sens » en français, « somehow », « a sort of », « actually » en anglais, « irgendwie » en allemand, etc. Exemple 6 : traduction de l’expression floue « en un sens » / « in a certain way » / « in einem gewissen Sinne » Parler n'est-il pas toujours en un sens donner sa parole ? To speak isn't always in a direction to give its word? [Systran] Talking is not always in a sense to give his speech? [Google] Ist sprechen nicht immer in Sinn, sein Wort zu geben? [Systran] Sprechen, ist es nicht immer in eine Richtung geben, sein Wort? [Google] La question de la traduction des termes flous constitue un problème de lexique qui se situe souvent au niveau polylexical, il n’est pas possible de le résoudre sans prendre en compte le contexte adjacent. Ces termes flous posent problème aux systèmes par transfert et statistiques du fait d’un contexte d’apparition très variable. Cinquième problème, idiotismes et métaphores Les idiotismes ou expressions idiomatiques ou encore phrasèmes chez Mel’čuk (Mel’čuk, 1998), ainsi que les métaphores revêtent une coloration culturelle marquée qu’il est difficile de traduire mot à mot. Exemple 7 : traduction de l’expression idiomatique « à couteaux tirés » / « at daggers drawn » / « in äußerster Feindschaft mit jmdm. Leben » Nicolas Sarkozy et Jean-François Copé sont désormais à couteaux tirés. (20minutes.fr) Nicolas Sarkozy and Jean-François Cope are from now on with drawn knives. [Systran] Nicolas Sarkozy and Jean-François Copé are now at loggerheads. [Google] Nicolas Sarkozy und Jean-François Copé sind von nun an an gezogenen Messern. [Systran] Nicolas Sarkozy und Jean-François Copé sind nun Messer aus. [Google] La traduction anglaise de Google « to be at loggerheads (être en désaccord) », bien que moins précise, est acceptable. Du fait qu’ils fonctionnent à partir de bases de données de textes traduits humainement, les systèmes statistiques de traduction automatique peuvent se révéler plus performants que les systèmes par transfert pour ce genre de problèmes. Sixième problème, la néologie La langue générale et plus encore la terminologie évoluent et les logiciels de traduction automatique n’incluent pas toujours les dernières évolutions lexicales. Exemple 8 : traduction des néologismes « internautes » et « Web star » Ancienne comédienne, Luna Sentz met son talent au service des internautes en animant des émissions interactives en direct sur le site de Canal+. Une Web star est née. (L'Ordinateur Individuel) Former actress, Luna Sentz puts her talent at the service of the Net surfers by animating interactive emissions on line on the site of Canal+. A Web star was born. [Systran] Former actress, Luna Sentz puts his talent to the Internet in facilitating interactive programs live on the site of Canal +. Web is a star born. [Google] Ehemalige Komödiantin, Luna Sentz stellt ihr Talent im Dienst der Internet-Benutzer, indem sie interaktive Direktemissionen auf dem Standort von Canal+ belebt. Ein Web Star ist geboren geworden. [Systran] Ehemalige Schauspielerin Luna Sentz stellt ihr Talent in den Dienst der Nutzer in Form von interaktiven Sendungen direkt auf der Website von Canal +. Eine Web-Star ist geboren. [Google] La néologie suppose une actualisation régulière des dictionnaires électroniques, avec des équipes de lexicographes qui travaillent en arrière-plan pour les systèmes par transfert. Grâce à ses immenses corpus de textes traduits relatifs aux nouvelles technologies, Google s’en sort ici particulièrement bien. Septième problème, les noms propres Le problème des noms propres est sans doute l’un des plus difficiles à résoudre en traduction automatique : d’une part, leur nombre est tellement élevé qu’un recensement exhaustif paraît pratiquement impossible. En effet, si l’on considère l’ensemble des noms de personnes, des noms de lieux, des noms de marques, d’associations, d’organismes à l’échelle de la planète, on dépasse de loin pour une langue les dictionnaires de langue générale. A la difficulté du recensement des noms propres vient s’ajouter celle de leur orthographe, souvent fluctuante lorsqu’il s’agit de translittération ou de transcription d’une langue à l’alphabet non latin. Exemple 9 : un nom propre connu, Vladimir Poutine Vladimir Poutine a déclaré vouloir équiper sa chienne, un labrador prénommé Koni, du système russe de navigation par satellite Glonass pour pouvoir la retrouver si elle s'enfuit! On comprend dès lors ce que le Kremlin est capable de mettre en oeuvre pour "pister" ses ennemis politiques! (lepost.fr) Vladimir Poutine (Putin) stated to want to equip her bitch, fore-mentioned Labrador Koni, Russian system of Glonass navigation by satellite to be able to find it if she flees! One consequently includes/understands what the Kremlin is able to implement “to track” its political enemies! [Systran] Vladimir Putin has said it wants to equip his dog, a labrador named Koni, the system of Russian Glonass satellite navigation to find if it escapes! It is therefore understandable that the Kremlin is able to implement to "track" their political enemies! [Google] Vladimir Poutine (Putin) hat erklärt, seine Hündin, ein oben erwähntes Labrador Koni mit dem russischen Navigationssystem via Glonass-Satelitte ausstatten zu wollen, um es wiederfinden zu können, wenn sie sich entflöhe! Man begreift folglich, was der Kremlin (Kreml) fähig ist, zu verwirklichen, um seine politischen Feinde „zu verfolgen“! [Systran] Wladimir Putin will an seinem Hund, einen Labrador namens Koni, des russischen Satellitennavigationssystem GLONASS, um die wiederzufinden, wenn sie fliehen! Es ist daher einleuchtend, dass der Kreml in der Lage ist, um "Spuren" seiner politischen Gegner! [Google] Avantage ici à Google pour l’anglais, une chienne n’étant pas toujours « a bitch ». Plus sérieusement, les corpus parallèles traduits sont en mesure de donner des équivalences des noms propres et des prénoms de façon plus fiable dans les systèmes statistiques que par transfert (transcription de « Vladimir » par « Wladimir » en allemand). Exemple 10 : un illustre inconnu, le Dr Michel Maure Un mandat d’arrêt a été délivré à l'encontre du Dr Michel Maure, 59 ans, auteur de multiples opérations de chirurgie esthétique ratées. (europe1.fr) A warrant for arrest was delivered against Dr. Michel Moor, 59 years, author of multiple missed operations of cosmetic surgery. [Systran] An arrest warrant was issued against Dr Michel Maure, 59, author of multiple cosmetic surgery operations failed. [Google] Ein Erlaßmandat ist gegen maurischen Dr. Michel 59 Jahre Autor mehrfacher verpaßter Operationen ästhetischer Chirurgie ausgestellt worden. [Systran] Ein Haftbefehl ausgestellt wurde, gegen die von Dr. Michael Mohr, 59 Jahre, Autor von mehreren Operationen der plastischen Chirurgie Fehldrucke. [Google] La présence de noms propres vient souvent complètement bouleverser la traduction, le système ne parvenant plus à analyser la phrase de manière correcte, traduisant le nom propre en un adjectif (maurisch = mauresque !) dans la traduction en allemand de l'exemple précédent par Systran. Net avantage à Google. Huitième problème, les mots d’origine étrangère et les emprunts Les mots d'origine étrangère sont extrêmement fréquents dans la langue allemande et proviennent généralement de l'anglais ou du français. Ces mots ne sont généralement pas présents dans les dictionnaires électroniques du système, d’où un net avantage aux systèmes statistiques. Exemple 11 : traduction des emprunts « Debütantin » et « Favoritin » Simone Buess: Von der Debütantin zur Favoritin. Des Simone payer : Du Debütantin au Favoritin. [Systran] Simone Buess: de la débutante à la favorite. [Google] De plus en plus, on constate parallèlement à la mondialisation, une tendance dans la langue journalistique à la généralisation des emprunts de mots d’origine étrangère ou à la traduction mot à mot de certaines expressions qui prennent aussi racine dans la langue cible. L'expression anglaise « nothing in the pipeline », est devenue en français « rien dans les tuyaux » et en allemand « nichts in der Pipeline ». Bien entendu, la langue d’emprunt est en général l’anglais pour ces expressions, la langue du « business » international. Exemple 12 : traduction de l’expression idiomatique empruntée de l’anglais « rien dans les tuyaux » et « nothing in the pipeline » Most software companies are one product companies, and have nothing in the pipeline apart from upgrades. (techuser.net) La plupart des fournisseurs de logiciel sont des compagnies d'un produit, et n'ont rien dans la canalisation indépendamment des mises à niveau. [Systran] La plupart des entreprises de logiciels sont l'un des produits des entreprises, et n'ont rien en dehors de la canalisation de mise à niveau. [Google] L’expression idiomatique est traduite dans la langue cible comme s’il s’agissait d’une proposition libre. Christine Lagarde, fait valoir de son côté qu' « il n'y a, à ce jour, strictement rien dans les tuyaux ». (tradingsat.com) Christine Lagarde, puts forward on her side that “there is not, to date, strictly nothing in the pipes”. [Systran] Christine Lagarde, argues in turn that "there has, to date, nothing in the pipes." [Google] Christine Lagarde macht ihrerseits geltend, dass „es bis zum heutigen Tag strikt nichts in den Rohren gibt“. [Systran] Christine Lagarde, macht geltend, auf seiner Seite: "Es gibt bis heute nicht unbedingt in den Schläuchen. [Google] La traduction inverse montre aussi que l’expression idiomatique n’est pas reconnue. Doch PR-Chef Franz-J. Weihrauch winkt ab: „Da ist aktuell nichts in der Pipeline." (koelner-brauerei-verband.de) Mais PR-Chef Franz-J. La fumée consacrer décline : „N'est là actuel rien dans la canalisation.“ [Systran] Mais PR-chef Franz-J. À partir de l'encens du doigt: "Il est actuellement rien dans le pipeline." [Google] Certains emprunts de l’anglais jouissent d’une grande popularité, surtout dans la langue des affaires. Exemple 13 : traduction de l’emprunt « business model » Les pirates sont innovants, ils mettent en évidence les problèmes du marché et montrent la voie à de nouveaux business models. (ecrans.fr) The pirates are innovating, they highlight the problems of the market and show the way with new businesses models. [Systran] The pirates are innovative, they highlight the problems of the market and show the way to new business models. [Google] Die Piraten sind innovativ, sie heben die Probleme des Marktes hervor und zeigen den Weg an einem neuen Geschäft models. [Systran] Die Piraten sind innovativ, sie deutlich machen, die Probleme des Marktes und weisen den Weg zu neuen Geschäftsmodellen. [Google] La traduction en allemand met en évidence que le passage d’un emprunt de l’anglais d’une langue source vers une langue cible toutes deux différentes de la langue d’emprunt ne s’effectue pas sans heurts. Là encore, il s'agit d'un problème de qualité des dictionnaires électroniques qui peut être résolu dans un système par transfert par création d’un dictionnaire des emprunts. Le système statistique se montre un peu plus performant du fait qu’il se fonde sur des corpus de textes traduits humainement. Neuvième problème, les séparateurs Les signes de ponctuation ainsi que certaines abréviations posent problème aux systèmes de traduction automatique. Le fait que le point n’ait pas toujours une fonction de séparateur de phrases constitue un phénomène bien connu en matière de segmentation en français. Le point peut être rencontré en allemand ou en anglais après une abréviation comme Dr. En allemand, le point sert aussi à identifier les nombres ordinaux que l’on rencontre aussi dans les dates là où le français emploie des cardinaux. Exemple 14 : séparateur et adjectif numéral ordinal Montag, den 18. August 2008 Lundi le 18 août 2008 [Systran] Lundi, le 18 Août 2008 [Google] Darf man ab dem 16. Lebensjahr ein Girokonto eröffnen? (Yahoo Deutschland) On peut 16 à partir de cela. Ouvrir une année un compte de virement ? [Systran] Peut-on, à partir du 16 Ans, d'ouvrir un compte courant? [Google] Le point dans ce dernier exemple sert non de séparateur, mais indique qu’il s’agit d’un nombre ordinal qui devrait être traduit en français par « à partir de la 16^e année » pour « ab dem 16. Lebensjahr ». Ce problème des séparateurs peut tout à fait être résolu dans la plupart des cas, ce qui implique des modules supplémentaires dans le moteur de traduction. Les sigles ne prennent en principe plus de points entre les différentes lettres qui les composent, ce qui constitue une erreur potentielle de moins pour la question des séparateurs. Dixième problème, les sigles et les acronymes Les sigles (épelés), séparés ou non par des points, ainsi que les acronymes (prononcés comme une unité phonique et donc sans points séparant les différentes lettres) sont couramment employés dans les textes journalistiques. Certains se traduisent, d’autres pas. Certaines langues, comme l’allemand, utilisent aussi les acronymes anglais. Signalons toutefois que les acronymes s'écrivent le plus souvent en capitales et sans points abréviatifs : UNESCO, ONU, OTAN, NASA. Parfois aussi, on les écrit aussi comme des noms propres, avec une majuscule initiale : Onu, Insee. Les sigles perdent plus difficilement leurs points étant donné qu'il se prononcent lettre après lettre : S.N.C.F. Exemple 15 : traduction du sigle d’une organisation internationale connue L'Organisation mondiale du commerce (OMC) est la seule organisation internationale qui s'occupe des règles régissant le commerce entre les pays. (wto.org) The World Trade Organization (WTO) is the only international organization who deals with the rules governing the trade between the countries. [Systran] The World Trade Organization (WTO) is the only international organization dealing with the rules governing trade between countries. [Google] Das Welthandelsorganisation (WHO) ist die einzige internationale Organisation, die sich mit den Regeln befasst, die den Handel zwischen den Ländern leiten. [Systran] Die Welthandelsorganisation (WTO) ist die einzige internationale Organisation, die sich mit den Regeln für den Handel zwischen den Ländern. [Google] Système par transfert et système statistique viennent à bout de ce genre de problèmes. Un système comme Google a naturellement à sa disposition les pages traduites desdites organisations, d’où la qualité de la traduction automatique réalisée sur la base de corpus parallèles. Exemple 16 : traduction d’une abréviation connue L'entreprise a repris la dénomination Total SA le 6 mai 2003. (Wikipédia) The company took again the denomination Total SA on May 6^th, 2003. [Systran] The company has taken the name Total SA on 6 May 2003. [Google] Das Unternehmen hat die Bezeichnung Gesamtzahl AG am 6. Mai 2003 wieder aufgenommen. [Systran] Das Unternehmen hat die Bezeichnung Total SA am 6. Mai 2003. [Google] Une SA (société anonyme) de droit français n’est évidemment pas une AG (Aktiengesellschaft = société par actions) de droit allemand. Le système par transfert pèche ici par une table de correspondances inexactes et un dictionnaire des noms propres d’entreprises insuffisant. Onzième problème, les synonymes La question de la synonymie est l’une des plus cruciales en traduction car elle traduit la richesse lexicale d’une langue et la compétence d’un traducteur. De nombreux mots ne se différencient les uns des autres que par des différences, parfois infimes, mais nécessaires pour reproduire telle ou telle nuance de style ou de sens dans tel ou tel contexte. Un logiciel de traduction ne dispose généralement que d’un nombre limité de variantes pour traduire telle ou telle unité. La traduction peut ainsi apparaître compréhensible, mais peu élégante, voire maladroite. Exemple 16 : traduction de « banner » par « bannière » au lieu de « banderole » Two British Free Tibet campaigners are in custody in China after unfurling a Tibetan flag and banner outside the Olympic stadium. (freetibet.net) Deux militants libres britanniques du Thibet sont dans la garde en Chine après unfurling un drapeau et une bannière tibétains en dehors du stade olympique. [Systran] Deux British Free Tibet militants sont en garde à vue après le déploiement en Chine, le drapeau tibétain et la bannière à l'extérieur du stade olympique. [Google] Quasi-synonymes, « bannière » = « étendard d'une confrérie, d'une société » ne s’en distingue pas moins de « banderole » = « grande bande de tissu qui porte une inscription (en signe de protestation) ». Douzième problème, la transposition Au sens classique, la transposition en traduction consiste à traduire une unité lexicale d’une classe (nom, verbe, adjectif, adverbe) par une unité lexicale d’une autre classe. La transposition est assez fréquente lorsqu’on traduit des langues romanes vers les langues germaniques, les premières ayant souvent recours à des nominalisations ou les secondes préféreront des expressions verbales. Exemple 17 : transposition de « house for sale » en « maison à vendre » Detroit has a bunch of run down houses for sale in the $30000 range. (www.productivity501.com/help-me-understand-the-subprime-mess/419/) Detroit a un groupe de maisons de course vers le bas à vendre dans la gamme $30000. [Systran] Detroit a un tas de courir les maisons en vente dans la gamme $ 30,000. [Google] L'expression « house for sale » confine à l'idiotisme et les deux systèmes ont procédé à la dislocation de l’expression qui devient incompréhensible. Mais le problème consistait à ne pas traduire « for sale » par une suite « préposition + nom » mais « préposition + verbe ». C’est une gageure pratiquement impossible à résoudre pour un système par transfert et là encore, même s’il ne brille pas, le système statistique se révèle meilleur. Paradoxalement, les systèmes s’en sortent mieux à la transposition de « maisons à vendre » du français vers l’anglais. Exemple 18 : transposition de « maison à vendre » en « house for sale » Dans tout le pays on organise des foreclosure tours, visites organisées de maisons à vendre. In all the country one organizes foreclosure turns, visits organized of houses for sale. [Systran] Across the country on organizes foreclosure tours, tours of homes for sale. [Google] Treizième problème, l'orthographe L’orthographe, lorsqu’elle est défectueuse, est un ennemi de la traduction automatique, c’est une remarque triviale. Les systèmes de traduction travaillant sur du texte analysent tout mot mal orthographié comme mot inconnu et tout mot inconnu ne peut avoir de traduction et est donc laissé tel quel. Un mot inconnu ne peut être analysé, c’est-à-dire rattaché à une classe de mots comme les noms, les verbes, etc. De ce fait, un mot inconnu provoque systématiquement des erreurs d’analyse dans un système par transfert. L’étape qui doit précéder toute traduction automatique consiste donc en une pré-édition dont le but minimal sera de corriger les fautes d’orthographe. Exemple 19 : traduction d’une phrase mal orthographiée Alors qu'un traductteur humain est cpable de traduire une phrase mâle orthographiée, il en va tout ôtrement d'un logiciel. Whereas a human traducttor is cpable to translate a spelled male sentence, it goes from there all ôtrement a software. [Systran] While a traductteur human cpable to translate a sentence spelled male, that's a ôtrement of software. [Google] Während ein menschliches traductteur cpable ist, einen orthographisch richtig geschriebenen männlichen Satz zu übersetzen, geht er davon jedes ôtrement einer Software. [Systran] Während ein traductteur Menschen cpable übersetzen Mann einen Satz geschrieben, das ganze ôtrement einer Software. [Google] No comment... Si certains problèmes relatifs à la TA (ambiguïté, transposition) sont imputables à la question de la « connaissance du monde », la plupart d'entre eux proviennent d'un codage insuffisant des dictionnaires ne prenant pas encore en compte toutes les avancées de la linguistique dans les systèmes par transfert. L’avenir semble donc appartenir aux systèmes statistiques disposant de corpus parallèles les plus larges possibles. Quoiqu’il en soit, la traduction automatique connaît, avec de tels systèmes dérivés des mémoires de traduction, un renouveau dont il est impossible de ne pas tenir compte. Ils remettent aussi au goût du jour la technique de la post-édition, c’est-à-dire la correction d’une ébauche traduite automatiquement. Traduction par écrasement et post-édition Pour pouvoir travailler de façon productive avec un logiciel de traduction automatique, il est nécessaire de connaître ses « erreurs ». La deuxième partie de cet exposé a donc pu paraître comme une critique en règle et quelque peu convenue de la TA. Aussi entreprendrons nous, dans cette troisième partie, de rétablir un peu l'équilibre en faveur de celle-ci en opposant post-édition d'un document traduit automatiquement et traduction par écrasement. Avantages et inconvénients de la traduction par écrasement La traduction par écrasement d'un fichier source est la méthode employée par une majorité de traducteurs dans leur travail et elle est couramment enseignée comme "la" méthode dans les écoles de traduction. Cette méthode comporte un certain nombre d'avantages mais aussi certains inconvénients. Au crédit de la traduction par écrasement, on relèvera les avantages suivants : Elle permet de conserver le formatage du texte source. Le texte est traduit dans son intégralité en minimisant le risque d'oublis. Associée à une mémoire de traduction, la méthode est rapide pour des textes répétitifs. La qualité de la traduction est celle d'une traduction humaine. Mais les inconvénients sont les suivants : La traduction doit être saisie au clavier dans son intégralité. La qualité de la traduction peut être sujette à des fluctuations en fonction du niveau de compétence du traducteur ou en cas de changement de traducteur sur un même texte. Avantages et inconvénients de la technique de post-édition La post-édition d'une ébauche traduite automatiquement consiste en une complète correction d'un texte. Elle demande une attention soutenue ainsi qu'une certaine familiarisation avec les logiciels de TA pour connaître les fautes qui sont couramment commises. Peu enseignée dans les écoles de traduction, elle est pourtant assez couramment pratiquée dans l'industrie. Là encore, citons les avantages et les inconvénients les plus marquants. Au crédit de la technique de post-édition, on relèvera : Elle permet aussi de conserver le formatage du texte source pour les programmes dédiés comme Systran (ce que ne permet pas Google). Elle permet d'avoir une vue d'ensemble du texte dans la langue cible et de le défricher plus rapidement. Certains la considèrent comme plus rapide que la post-édition par écrasement du fait de la présence d'une ébauche traduite préexistante. Elle autorise une grande consistance terminologique si les dictionnaires utilisateurs sont bien construits pour les programmes dédiés comme Systran (une fonction qui, là encore, n’existe pas dans Google). On constate une régularité dans la traduction du fait que tout syntagme identique sera toujours traduit de la même façon. Elle se prête tout particulièrement à la traduction technique sous réserve de dictionnaires bien élaborés à l’aide de programmes dédiés. Elle facilite la circulation du texte d'un traducteur à l'autre du fait de sa tendance à linéariser le style. Les inconvénients sont les suivants : Certains traducteurs la considèrent comme plus lente que la méthode par écrasement en arguant qu'il est plus lent, voire plus fastidieux, de corriger que de rédiger. La post-édition tend à effacer la "patte" personnelle du traducteur, le style apparaît uniforme, voire monotone. La standardisation du vocabulaire tend à se substituer à la richesse lexicale. La post-édition n'est pas adaptée à certains types de textes à vocation esthétique, ce n’est pas un outil à utiliser en traduction littéraire ou dans toute tâche où une analyse philologique du texte est nécessaire. Il est plus facile d’omettre de traduire certains passages qui resteront sous forme d'ébauche. Conclusion La traduction automatique, n'en déplaise aux professionnels de la traduction, n'est pas morte et connaît même avec les systèmes statistiques de traduction automatique un regain de popularité. Si les maladresses d'autrefois prêtaient, et pour certaines, prêtent toujours à sourire, son utilité est indéniable dans certaines paires de langues, et en particulier à partir de et vers l'anglais. En revanche, certaines autres paires de langues posent toujours un plus grand nombre de problèmes, ce constat ne s'appliquant bien entendu pas aux seuls systèmes évoqués ici. Comme le souligne Christian Boitet (Boitet, 2007 : 25), « les corpus utilisés en TA de l’écrit et de l’oral ont évolué, depuis les suites de test et les corpus d’essai des débuts, vers des corpus parallèles bilingues ou multilingues, bruts ou enrichis par des métadonnées et une grande variété d’annotations linguistiques. » Les systèmes statistiques reposant sur de tels corpus, comme Google translate, du fait qu’ils s’appuient sur des traductions humaines réalisées en amont, peuvent constituer une aide précieuse et tendent par leurs performances à dépasser les systèmes par transfert. Mais il faut toutefois relativiser et quelques exemples ne suffisent pas pour juger d’un système. Du fait de l’évolution des systèmes, la réalisation d’une ébauche automatique apparaît de moins en moins absurde et la familiarisation avec la technique de post-édition devrait faire partie de tout cursus de traduction, même à titre accessoire, dans la mesure où elle accentue le recul critique vis-à-vis du texte cible et exerce l'acuité du réviseur. Ce texte a été rédigé durant l'été 2008, depuis, une nouvelle version commercialisée en juin 2009, Systran Enterprise Server 7, a adopté en partie l'approche statistique grâce à son moteur de traduction hybride entraîné à partir de l'Acquis Communautaire, le corpus multilingue de la Commission européenne et réalisé en collaboration avec Philipp Koehn de l'Université d'Edimbourg. ________________________________________________________________________ BIBLIOGRAPHIE __________________________________________________________________ Boitet Christian, 2007, « Corpus pour la TA : types, tailles et problèmes associés, selon leur usage et le type de système », dans Revue française de linguistique appliquée, Vol. XII, 2007/1, pp. 25-38. Brown Peter F., Della Pietra Stephen, Della Pietra Vincent J., Jelinek Frederick, Lafferty John D., Mercer Robert L., Roossin Paul S., 1990, « A Statistical Approach to Machine Translation », dans Computational Linguistics, vol. 16/2, p. 79-85. Gross Gaston, 1995, « Une sémantique nouvelle pour la traduction automatique : les classes d’objets », dans La Tribune des Industries de la Langue et de l’Information électronique, n°17-18-19, pp. 16-19. Hutchins John, 2004, « Machine translation and computer-based translation tools. A new spectrum of translation studies », dans Bravo José Maria (ed), Publicationes de la universidad de Valladolid, p. 13-48. Koehn Philipp, Hoang Hieu, 2007, « Factored Translation Models », dans Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, p. 868-876. Lakoff George, 1972, « Hedges: A Study in Meaning Criteria and the Logic of Fuzzy Concepts », dans Perantean P. M., Levi J. N., and Phares G. C. (ed.), Papers from the 8th Regional Meeting, Chicago Linguistics Society, p. 183-228. Loffler-Laurian Anne-Marie, 1983, « Pour une typologie des erreurs dans la traduction automatique », dans Multilingua, vol. 2, n° 2, p. 65-78. Mel’čuk Igor, 1998, « Collocations and Lexical Functions », dans Cowie Anthony P. (ed.), Phraseology: Theory, Analysis and Applications, (Oxford Studies in Lexicographie and Lexicology), Oxford, Oxford University Press, p. 79-100. Och Franz Josef, Ney Hermann, 2004, « The Alignment Template Approach to Statistical Machine Translation », dans Computational Linguistics, vol. 30, n° 4, p. 417-449. #Lingua Custodia » Flux Lingua Custodia » Flux des commentaires Lingua Custodia » L’apprentissage par réseau de neurones pour les outils de traduction automatique Flux des commentaires Un aperçu du futur pour la gestion de patrimoine L’Autorité Monétaire de Singapour sélectionne une FinTech française pour participer au Global FinTech Hackcelerator 2017 alternate alternate alternate alternate alternate L’apprentissage par réseau de neurones pour les outils de traduction automatique 8 août 2017Olivier La traduction automatique est en train de vivre un nouveau tournant technologique et d’effectuer un nouveau saut qualitatif. Apparue initialement dans les années 50 avec les premiers ordinateurs, la traduction automatique était alors construite sur la base de règles linguistiques : on passait alors des heures à « programmer » des dictionnaires et des règles de grammaires pour obtenir des résultats peu probants. Un premier tournant technologique s’est déroulé il y a une dizaine d’années avec la création de moteurs de traduction automatique à partir d’une approche purement statistique. On a volontairement laissé de côté les règles grammaticales et les lexiques pour faire confiance aux mathématiques et aux modèles construits à partir des millions de phrases disponibles en plusieurs langues. Le machine learning a ainsi fait son apparition dans la traduction automatique et a permis la création d’outils de traduction automatique très finement réglés pour traduire certains types de textes avec une grande précision car les modèles n’étaient « nourris » qu’à l’aide de certaines catégories de textes. Logiquement, l’étape suivante a été de chercher à améliorer les résultats obtenus grâce aux statistiques avec des règles linguistiques créant ainsi une approche hybride. Avec ce modèle toujours utilisé aujourd’hui, lorsqu’une phrase est envoyée en traduction, l’algorithme va regarder chaque mot individuellement puis ceux qui le précèdent et le suivent jusqu’à une dizaine de mots de distance pour déterminer la meilleure proposition de traduction dans ce contexte, un post traitement linguistique cherchera à corriger d’éventuelles erreurs grammaticales et lexicales en sortie. Cette approche donne de bons résultats, très précis pour des textes techniques mais il est toujours visible que le texte a été produit par une machine, certaines erreurs de grammaire pourront toujours apparaitre car le texte demeure traduit mot par mot même si le contexte est pris en compte. Le recours aux réseaux de neurones rendu possible par la puissance de calcul que l’on trouve dans les cartes graphiques (GPU) change à nouveau la donne. En plaquant des modèles mathématiques sur plusieurs niveaux pour « entraîner » les moteurs de traduction automatique, on peut désormais leur demander de traduire des phrases dans leur ensemble en fonction du concept ou de l’idée qu’elle présente et non plus mot par mot. Cette approche permet de traiter de façon bien plus efficace les langues asiatiques, ou encore l’allemand, langues pour lesquelles l’ordre des mots est très différent de l’anglais ou du français. Les phrases étant désormais traduites d’un bloc, celles-ci sont donc plus cohérentes dans leur ensemble et il est beaucoup plus difficile d’identifier qu’elles ont été produites par une machine. Cette technologie permet donc de produire des traductions mieux construites et plus élégantes et change la nature de la revue qui doit être effectuée par les relecteurs humains. Auparavant, les relecteurs se concentraient sur les tournures de phrases et les corrections grammaticales, désormais, il leur faut davantage se concentrer sur la validation du sens des phrases. En effet, les réseaux de neurones informatiques comportent tellement d’analogies avec ceux du cerveau humain qu’ils vont en adopter certains défauts : ils ne vont pas toujours avouer qu’ils ne savent pas. Lorsqu’une phrase comporte un mot jamais rencontré dans l’apprentissage de l’outil, un moteur créé par approche hybride (statistico-linguistique) laissera le mot tel quel en considérant que c’est un nom propre indiquant clairement au relecteur qu’il y a un problème avec cette phrase. Le moteur neuronal pourra quant à lui soit omettre le mot en question pour ne pas casser la structure de la phrase cible, soit deviner ce dont il s’agit en fonction du contexte. Dans les deux cas, le relecteur devra porter une attention particulière pour ne pas perdre en précision dans la traduction d’une phrase par ailleurs bien construite. Les technologies évoluent et l’intelligence artificielle ouvre de formidables perspectives pour les outils d’aides à la traduction. Comme les voitures autonomes, il reste plus sûr de conserver les mains derrière le volant mais la traduction automatique, lorsqu’elle est spécialisée sur un secteur bien particulier comme le domaine financier, permet aux institutions financières de communiquer de façon plus rapide et à meilleur marché auprès de leurs clients et de répondre aux contraintes toujours croissantes de transparence imposées par les régulateurs, les marchés et les investisseurs. Le fantasme de la traduction automatique : esquisse d’un imaginaire frelaté 14 avril 2015 Résumé : Cette contribution vise à explorer l’imaginaire qui entoure la traduction automatique (TA), notamment en ce qui concerne la recherche fondamentale et ses applications. Il s’agit de retracer les étapes importantes de l’histoire de la traduction automatique pour mettre en lumière certaines des attentes alimentées par l’imaginaire technologique et, en retour, montrer comment ces attentes ont teinté à la fois les directions qu’a emprunté la recherche, les applications qui en sont nées et l’accueil qu’on leur a réservées. Une fois ces tensions esquissées, nous proposons un recadrage de cet imaginaire, lequel pourrait s’incarner dans la figure du cyborg. There is a broad continuum of ways in which man and machine can share the translation responsibility. It ranges from Bar-Hillel's FAHQT (Fully Automatic, High Quality Translation) to Kay's HTLGI (Human Translation Like God Intended). (Merle D. Tenney, « Machine Translation, Machine-aided Translation, and Machine-impeded Translation », Tools for the trade : Translating and the Computer 5, 1985, p. 105) En 1997, quand Alta Vista fournit son application gratuite de traduction automatique, elle la baptise BabelFish, en référence au poisson du même nom imaginé par Douglas Adams^1. L’étonnant symbiote jaune n’est que l’une des innombrables incarnations du mirage de la traduction automatique, que l’on conçoit à tout coup sans intervention humaine. Tant dans la littérature qu’au cinéma, les exemples pullulent : des puces « microsoft » de l’univers de Gibson à C3PO, l’aimable diplomate cybernétique, en passant par le traducteur universel de Star Trek, les auteurs de science-fiction rivalisent d’imagination pour expliquer comment un tel exploit pourrait devenir réalité, mais sans jamais vraiment en livrer le mécanisme. Ceci dit, l’idée d’éliminer l’élément humain de la traduction, puisque subjectif, lent ou encore encombrant, ne se limite pas au domaine de l’imaginaire, et ne date pas d’hier. On recense, en Allemagne au XVIIe siècle, la première tentative de produire des traductions mécaniquement, à l’aide de tables de calcul. Johannes Becher, un moine de Speyer, avait conçu un métalangage mathématique décrivant le sens de nombreux mots dans plusieurs langues. Il s’agissait, en quelque sorte, d’une tentative de formalisation des langues naturelles et de leurs relations complexes, tentatives qui seront reprises plus tard avec quelque succès. Ainsi, une phrase dans n’importe quelle langue incluse dans le système de Becher pouvait être traduite mécaniquement en fonction de formules préétablies^2. Il faudra évidemment attendre que s’écoule la première moitié du XXe siècle, avec la naissance des supers calculateurs et autres cerveaux mécaniques, avant de voir de réelles percées (même si elles restent timides) dans le domaine du traitement automatique des langues, et particulièrement de la traduction automatique (TA). Je propose donc de revenir sur les grandes étapes de la recherche en TA en vue de souligner quelques-uns des écarts entre réalité et fiction, entre possibilités et attentes, et de montrer ainsi que les maladresses et l’inadéquation que l’on reproche encore souvent aux systèmes de TA les plus sophistiqués n’ont d’autres sources que cet imaginaire grandiose, qui ne peut que décevoir une fois ramené à hauteur du réel. L’âge d’or Le milieu du XXe siècle, qui voit la naissance de la TA comme nous la connaissons aujourd’hui, est effervescent à bien des égards. D’une part, pour la première fois de l’histoire, les ordinateurs, ces « cerveaux électroniques », sont suffisamment puissants pour répondre aux rêves d’automatisation des scientifiques. D’autre part, la Guerre Froide engendre un besoin impérieux pour les Américains d’être au fait des activités des Russes et vice-versa. Ainsi, les années 50 et 60 se voient le théâtre d’une course effrénée à qui pourra le premier maîtriser à la fois la machine et le langage. Les prédictions des principaux intéressés font preuve, avec le recul, d’un optimisme bon enfant qui paraît friser la naïveté. On s’accorde généralement pour attribuer la paternité de la recherche en traduction automatique à Warren Weaver, alors à l’emploi de la Rockefeller Foundation^3. Dès 1947, Weaver se demande, dans sa correspondance^4 avec Norbert Wiener, le premier cybernéticien, s’il est concevable que les ordinateurs puissent servir à la traduction de textes rédigés en langues naturelles (par opposition à des textes codés dans une « langue artificielle »). Wiener lui répond par la négative^5, mais sa réflexion se poursuit néanmoins, et en 1949, il rédige un mémo qui passera à l’histoire et jettera les bases de la recherche en TA, pour le meilleur et pour le pire. De cette première correspondance, on cite généralement le passage suivant : I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.^6 L’analyse acceptée généralement est que le mémorandum influencera la traduction automatique pour les décennies à venir, lui donnant une saveur résolument (et négativement) cryptographique, surtout en regard des approches subséquentes. J’ai aussi fait mienne cette analyse dans mes recherches précédentes^7, jusqu’à ce qu’une lecture plus attentive me permette de remarquer que Weaver n’était pas aussi ignorant des difficultés intrinsèques au traitement automatique des langues (comme la traduction automatique) que l’on a bien voulu le rapporter. Mathématicien et conseiller scientifique, Weaver souligne d’emblée son ignorance des subtilités du jeune domaine de la linguistique computationnelle et de l’automatisation des langues naturelles. Il fait néanmoins preuve d’une vision remarquable, décrivant avec une justesse étonnante les trois générations de systèmes de TA^8 qui nous sont aujourd’hui familières. Qui plus est, il esquisse aussi l’idée, qui sera reprise par de nombreux chercheurs par la suite, que les langues restreintes et les vocabulaires contrôlés pourraient constituer une piste non négligeable^9. Enfin, il est important de souligner, à notre avis, que Weaver avait vu juste en se demandant si viser un système parfait ne relevait pas de l’utopie et en proposant plutôt de viser une performance acceptable pour un nombre tolérable de cas^10. En somme, alors que la position de Weaver semble nuancée et que ce dernier recommande en toutes lettres une approche statistique^11, ses contemporains et les historiens n’ont retenu du mémorandum que les aspects cryptographiques et mathématiques au détriment du reste ; les premiers, probablement en raison des limites de l’informatique de leur temps, les seconds, puisque c’est cette approche qui a tenu le devant de la scène jusque dans les années 70. Ainsi, stimulés en grande partie par l’impulsion de Weaver, de nombreux chercheurs des années 50 s’emploient à décoder le langage, en vue de dégager une structure universelle qui s’appliquerait à toutes les langues. Rapidement, la première tentative réussie de traduction automatique^12 a été réalisée, le 7 janvier 1954, du russe vers l’anglais, à l’aide d’un dictionnaire de 250 mots et de six règles de transfert syntaxique, dans les laboratoires de l’Université Georgetown (en collaboration avec des chercheurs d’IBM)^13. La réaction est immédiate et euphorique : les titres de journaux laissent entendre que le processus est sans effort et que les ordinateurs sont d’ores et déjà prêts à prendre la relève : « Russian is turned into English by a fast electronic translator », peut-on lire en première page du New York Times le lendemain^14. Le Christian Science Monitor, rapporte le 11 janvier que « The brain didn’t even strain its superlative versatility and flickered out its interpretation with a nonchalant attitude of assumed intellectual achievement. »^15 Cependant, la démonstration de Georgetown présentait quelques caractéristiques qui continuent jusqu’à aujourd’hui d’accabler les chercheurs. En effet, le grand public a rarement conscience que les conditions de laboratoire sont très strictes lors de ces démonstrations. Par exemple, dans le cas de Georgetown-IBM, on a rigoureusement sélectionné 49 phrases à traduire, qui devaient respecter certains critères précis. En effet, toutes les phrases étaient déclaratives et simples et tous les verbes étaient à la troisième personne^16. Par ailleurs, comme le remarque Melby, les systèmes de traduction automatique doivent toujours être ajustés, ce qu’il compare à l’auditeur qui manipulerait les boutons de sa radio pour améliorer la réception. De la même façon, explique-t-il, les systèmes de TA sont ajustés en fonction des phrases qu’on leur demande de traduire^17. Il va sans dire que les scientifiques de Georgetown-IBM avaient consciencieusement entraîné leur système pour le grand jour, ce qui a certainement contribué à impressionner à la fois le public et les bailleurs de fonds, alors que la nature même du système rendait difficile la reproduction de ces exploits à grande échelle. Il n’en reste pas moins que, dès lors, les équipes de recherche en TA ont le vent dans les voiles et les subventions affluent^18. Rapidement, toutefois, l’approche directe laisse entrevoir quelques-unes de ses faiblesses. Tout d’abord, le nombre de règles nécessaires au traitement de textes généraux dépasse rapidement les capacités des linguistes et des ordinateurs qu’ils utilisent. L’ambigüité, notamment, est un problème très criant pour l’approche directe. La traduction d’expressions imagées ou de métaphores donne souvent des résultats pour le moins cocasses^19. Par ailleurs, cette approche produit des systèmes qui ne fonctionnent qu’avec une seule paire de langues, souvent dans une seule direction. On peut tout de suite constater le casse-tête potentiel lorsque l’on s’attaquera à un marché du calibre de celui de l’Union européenne puisque, comme le souligne plus tard Pierre Isabelle : « pour traduire entre n langues on a besoin de n(n-1) modules de règles (CE : 2322 = 506 !) »^20 ^21. Tous ces désagréments, cependant, n’ont été pleinement constatés et reconnus que bien des années plus tard, et les systèmes à approche directe ont tout de même régné sans compétition pendant près de trois décennies. Un coup dur Dans la foulée du succès de Georgetown-IBM, on croyait bien avoir trouvé la clé permettant de réduire en poussière la tour de Babel et de voir l’avènement d’un monde où la traduction n’aurait plus besoin d’intervention humaine. Les réjouissances allaient être de courte durée. En effet, les efforts de toute une génération de chercheurs allaient se voir presque anéantis par le rapport de l’ALPAC (Automatic Language Processing Advisory Committee) en 1966. Ce rapport, aussi connu sous le nom de « Black Book on Machine Translation », allègue, en somme, que la TA est inefficace, inadéquate et trop couteuse^22. L’impact, que l’on peut expliquer par la grande différence entre les attentes des bailleurs de fonds et la réalité de la recherche, fait trembler le monde de la traduction automatique et sonne le glas de nombreuses initiatives dans le domaine. Dès lors, les subventions de recherche et de développement pour la TA se voient réduites presque à néant, particulièrement en Amérique du Nord. Ce que les historiens relèvent rarement, c’est que le Black Book ne condamne pas d’emblée toute recherche sur l’automatisation de la traduction, mais bien les efforts qui visent à atteindre la traduction entièrement automatique de haute qualité (TAEHQ) sur texte général sans intervention humaine. Ainsi, si peu d’équipes visent cette dernière (il se trouve tout de même quelques irréductibles, particulièrement hors des États-Unis), on commence à explorer partout dans le monde de nouvelles voies comme les systèmes à langue restreinte, ou alors des systèmes ne fonctionnant qu’à l’intérieur de domaines de spécialité. The Quiet Decade En fait, si les militaires américains abandonnent pour le moment la recherche en TA, les gouvernements européens, canadien et japonais, eux, sont toujours de la partie. Hutchins^23 et Somers^24 s’accordent pour dire qu’en raison de facteurs sociopolitiques et culturels, la demande en traduction dans ces pays n’a jamais diminué. En Europe, les échanges multilingues entre les différents pays motivent des entreprises adaptées à cette réalité. La Commission européenne rachète SYSTRAN, un système américain de deuxième génération et en poursuit le développement^25. D’autres projets voient le jour en France, en Allemagne et en Italie. Au Canada, c’est le bilinguisme législatif qui motive la recherche. Au Japon, ce sont les avancées informatiques réalisées par les chercheurs en vue de manipuler le système d’écriture qui aiguillonne les chercheurs : les succès sont si probants que les universités et le secteur privé décident d’appliquer leurs découvertes à la traduction automatique Anglais-Japonais^26. De l’approche cryptographique mot-à-mot des premières années, on passe à une approche linguistique qui est caractérisée par la formalisation des langues naturelles, soit via une interlangue, soit à l’aide de grammaires formelles et de métalangages informatiques. Une passation des pouvoirs, en somme, des cryptographes et mathématiciens vers les spécialistes de la linguistique computationnelle. Cependant, ces approches de deuxième génération ont aussi leurs faiblesses. Tout d’abord, il faut supposer que le texte source est grammaticalement correct. Pour des essais contrôlés en laboratoire, la question est peu pertinente, mais si le système vise la commercialisation et sera utilisé pour des textes généraux, il est impossible de garantir un résultat à tout coup. En outre, les modules d’analyse ont du mal à traiter des ambigüités grammaticales qui ne ralentiraient pas un traducteur humain. L’exemple par excellence^27 pour illustrer les faiblesses de cette génération est « Time flies like an arrow », dont la structure pour une machine est très difficile à analyser hors contexte et pourrait ainsi être traduit par quelque chose comme « Les mouches du temps aiment la flèche ». Il nous faut rappeler que les équipes de recherche en TA se sont tournées vers les spécialistes de la linguistique computationnelle pour résoudre les problèmes de l’automatisation de la traduction et ont délaissé au même rythme les cryptographes qui avaient fait leur succès. De plus, à la fin des années 70 et au début des années 80, les progrès en informatique permettent aux chercheurs de concevoir des systèmes de plus en plus complexes et de traiter des volumes de données sans commune mesure avec les précédents. Ainsi, la « Quiet Decade » est dominée par les approches par interlangue et par les formalismes linguistiques. On expérimente aussi avec les langues restreintes, les vocabulaires contrôlés et les sous-domaines. Les systèmes gagnent en complexité et deviennent modulaires. La recherche en TA est principalement influencée par les domaines de la linguistique structurelle et de l’informatique. Par ailleurs, de plus en plus de chercheurs ont abandonné l’idée de la traduction complètement automatique : l’interactivité, avec en bonne place la postédition, fait son apparition comme partie intégrante des processus de traduction automatique. Au cours des années 80, c’est l’approche indirecte par transfert qui règne sans conteste sur le paysage de la TA^28. En effet, les approches par interlangue ne semblent pas remporter les succès attendus, et l’on préfère en conséquence plancher sur des approches moins ambitieuses^29, mais plus réalistes. Les universités et les organismes gouvernementaux sont toujours au premier plan de la R et D à travers le monde, mais le rôle du secteur privé commence à prendre de l’ampleur que l’on n’avait pas vue jusqu’alors. En d’autres mots, force est de constater que la « Quiet Decade », même si elle laissera sa marque dans l’imaginaire de la recherche en TA et dans celle des principaux commanditaires, notamment en rendant presque taboue l’appellation « traduction automatique »^30, n’aura pas été stérile sur le plan de la recherche, mais aura plutôt été un passage obligé pour en arriver aux systèmes dont nous profitons aujourd’hui. Une révolution statistique Le domaine de l’informatique subit aussi des transformations importantes qui auront des répercussions sur la TA et la TAO. En effet, la fin des années 70 voit la naissance des premiers ordinateurs personnels et au cours des années 80, ces derniers se répandent à grande échelle dans les milieux professionnels. Les avancées en micro-informatique transforment en profondeur le monde de la traduction : la standardisation des plateformes, le développement des interfaces-utilisateurs et l’apparition des périphériques de stockage de données plus performants sont autant de facteurs qui ont facilité l’adoption des outils de traduction assistée par ordinateur (TAO) chez les traducteurs^31, outils qui, comme leur nom l’indique, ne permettent pas de traduire de façon automatique, mais qui assistent les traducteurs dans leur travail. Ainsi, l’automatisation grandissante du monde du travail (phénomène qui ne se limite pas à la traduction, bien sûr) fait naître de nouveaux besoins. En conséquence, observe Hutchins, « MT was coming out of the laboratory onto the marketplace and into the office »^32. Au cours de cette décennie, explique-t-il, les faiblesses des systèmes de TA sont obligeamment reconnues et l’on propose ces derniers, non plus comme un moyen de remplacer les traducteurs, mais bien comme des aides à la traduction^33. Il n’est donc pas surprenant de constater que nombre de chercheurs s’emploient à développer la TAO et que nombre d’institutions et de grandes organisations qui œuvrent en traduction cherchent à l’implanter. Qui plus est, les premiers systèmes commerciaux font leur apparition sur le marché. ALPS et Weidner sont les fers de lance du mouvement, mais plutôt que de les promouvoir comme de la TA, on les commercialise comme des aides à la traduction puisqu’ils ont besoin de beaucoup d’intervention humaine pour produire des traductions acceptables^34. Ces conditions sont essentielles au changement de paradigme qui nous mènera à la TA contemporaine. Le prochain grand virage de la traduction automatique est amorcé à la fin des années 80, sur les chapeaux de roues, par Fred Jelinek, chef du groupe de recherche d’IBM sur la reconnaissance vocale, à l’occasion de la Fourth International Conference on Theoretical and Methological Issues in Machine Translation : « Each time I fire a linguist, my performance goes up »^35. La traduction automatique statistique (TAS) est une méthode empirique qui s’affranchit complètement des modèles linguistiques rigides et s’appuie sur un ensemble de données organisées, le corpus bilingue ou multilingue aligné. Il s’agit d’aligner des phrases, des groupes de mots et des mots individuels de deux textes parallèles pour ensuite calculer la probabilité que n’importe quel des mots dans une phrase donnée en langue source corresponde avec un ou des mots qui font partie de la phrase qui lui est liée dans le texte en langue cible. L’hypothèse qui sous-tend la TAS est la suivante : une phrase (S) de langue source peut avoir un grand nombre de traductions (T) et chacune de ces traductions a une probabilité plus ou moins grande d’être adéquate ; en théorie, il n’y a pas de traduction « correcte » ou « incorrecte »^36. C’est l’approche qu’utilisent aujourd’hui Google et Microsoft, notamment, avec modifications à l’avenant, bien sûr, et avec le succès que l’on connaît. En d’autres mots, le concept de n-grammes est la solution de Jelinek au problème du modèle de langue, solution qui lui permet en fait d’éviter la formalisation linguistique^37. Les chercheurs en TAS l’ont plus tard adapté à leurs besoins, car Jelinek s’était plutôt concentré sur les trigrammes (séquence de trois mots)^38. Néanmoins, le principe reste inchangé. Il s’agit simplement de segmenter automatiquement le corpus unilingue de langue cible aligné en séquences de n-mots. Ces séquences sont ensuite compilées et après analyse statistique, le système attribue à chacune d’elles une probabilité basée sur sa fréquence d’occurrence. Les séquences, ainsi analysées et associées à leur « score » de probabilité forment le modèle de langue, qui fournira la sortie en langue cible^39. Le corpus bilingue aligné subira le même sort, mais les séquences seront enregistrées dans la table des segments du système de TAS en fonction de la probabilité que le segment source soit traduit par un ou des segments cibles donnés. Cette table est gage de la fidélité de la traduction^40. La TAS offre de nombreux avantages, mais a aussi certains inconvénients. D’une part, il est facile d’entraîner les systèmes : il suffit d’ajouter des textes à leur corpus pour les renforcer. Il en découle aussi qu’ils sont facilement adaptables à un domaine en particulier : plus on fournit des textes précis et spécialisés au corpus (qui présentent donc moins d’ambigüités), mieux le système apprendra le nouveau domaine et pourra fournir de bonnes traductions. Ce type d’apprentissage a aussi pour conséquence qu’il est relativement peu coûteux (notamment en ce qui concerne les ressources humaines) d’entraîner et de modifier ces systèmes. Par ailleurs, la TAS traite admirablement les expressions idiomatiques et offre des traductions beaucoup plus agréables au lecteur que ce que pouvaient offrir certains systèmes à base de règles. Cependant, les systèmes de TAS ont des inconvénients à l’avenant. Par exemple, ils n’ont aucune connaissance sémantique ni pragmatique et les registres de langue restent un mystère pour eux. Plus grave, puisqu’ils n’ont recours à aucune grammaire, ils commettent parfois des fautes d’accord qu’un système à base de règles n’aurait jamais perpétrées^41. Le tableau suivant, dont les données ont été tirées de Kuhn (2010), illustre les forces et les faiblesses de la TAS, avec des traductions tirées de Google Translate. Nous y avons ajouté la traduction qu’offrait récemment Google Translate en comparaison. Anglais Traduction GT (09/2010) Traduction GT (07/2013) That’s another kettle of fish C’est une autre paire de manches C’est une autre paire de manches The girl is attractive La jeune fille est jolie La jeune fille est attrayant. The girl who arrived last Wednesday is attractive. La jeune fille qui est arrivé mercredi dernier est attrayant. La jeune fille qui est arrivé mercredi dernier est attrayant. Tableau comparatif de traductions fournies par Google Translate à trois ans d’intervalle (données 2010^42) On remarque tout de suite le changement qui a eu lieu dans les résultats obtenus. Le premier exemple reste inchangé et confirme la remarque de Kuhn sur la maîtrise des expressions idiomatiques par les systèmes de TAS. Le dernier exemple reste lui aussi inchangé et illustre bien les catégories d’erreur d’accord typiques de la TAS qui surviennent lorsque l’adjectif qui qualifie un nom est placé trop loin dans la phrase pour que système puisse « comprendre » qu’il doit être accordé. La même remarque explique la traduction boiteuse d’« attractive » dans le troisième exemple. Cependant, la construction du deuxième exemple ne devrait pas poser problème à Google Translate, puisque le nom et l’adjectif qu’il qualifie sont très proches l’un de l’autre. Kuhn indique qu’« un système TABR aurait probablement omis jeune et mis attrayante », mais que puisque la traduction de Google Translate est moins littérale, « La TAS a bien marché ici [sic] »^43. Que s’est-il passé en trois ans ? La jeune fille est restée, mais elle devenue « attrayant », le système commettant une erreur qu’il n’avait pas faite au départ. Évidemment, il y a peu de chance qu’une telle chose se produise avec un système à base de règles, puisque les ressources que requiert un changement dans ce type de système sont très élevées. Ce désagrément illustre bien le prix à payer si l’on veut profiter des avantages qu’offre un système malléable : les modifications peuvent aller trop loin. Bien sûr l’exemple présenté ici est extrême, puisque Google Translate s’appuie en partie sur les modifications proposées par ses utilisateurs, mais la situation peut facilement se reproduire dans un système implanté en entreprise si des mesures ne sont pas prises pour assurer une certaine qualité au corpus d’entraînement. Il n’en reste pas moins, que malgré ces accrocs, la TAS reste une approche fiable dont l’efficacité n’est plus à prouver. Un malentendu qui perdure Qu’en est-il du traducteur, dans tout cela ? Depuis les années 50, nous avons vu défiler cryptographes, mathématiciens, linguistes, informaticiens, statisticiens, mais pas de traducteurs. Puisqu’il s’agissait d’ailleurs au départ de les éliminer, il ne faut donc pas se surprendre de constater que la majorité se soit tenue loin de la recherche en traduction automatique. Dans « The Proper Place of Men and Machines in Language Translation », Martin Kay montre bien le calvaire que les traducteurs, et leurs textes, doivent subir aux mains des machines à traduire : There was a long period—for all I know, it is not yet over—in which the following comedy was acted out nightly in the bowels of an American government office with the aim of rendering foreign texts into English. Passages of innocent prose on which it was desired effect this delicate and complex operation were subjected to a process of vivisection at the hands of an uncomprehending electronic monster that transformed them into stammering streams of verbal wreckage. These were then placed into only slightly more gentle hands for repair. But the damage had been done. Simple tools that would have done so much to make the repair work easier and more effective were not to be had presumably because of the voracious appetite of the monster, which left no resources for anything else. In fact, such remedies as could be brought to the tortured remains of these texts were administered with colored pencils on paper and the final copy was produced by the action of human fingers on the keys of a typewriter. In short, one step was singled out of a fairly long and complex process at which to perpetrate automation. The step chosen was by far the least well understood and quite obviously the least apt for this kind of treatment. ^44 Il faut malheureusement avouer que la situation a perduré jusqu’à tout récemment. Pour illustrer ce que j’entends par là, je vous propose deux exemples relativement récents dont j’ai été personnellement témoin. Au cours du congrès de l’OTTIAQ en 2008, où Pierre Isabelle, pionnier de la recherche en traduction automatique au Canada, venait présenter les résultats d’un banc d’essai du tout dernier système de traduction automatique qui s’est tenu au Bureau de la traduction (BT). Portage, qui depuis a gagné nombre de compétitions internationales, avait très bien performé chez les traducteurs du Bureau de la traduction, lesquels ont une réputation de puristes à peu près inégalée. Ces derniers se voyaient agréablement surpris de l’idiomaticité des traductions produites par le système, vantant son efficacité et sa facilité d’utilisation et certains ont même demandé à continuer à utiliser la bête. En dépit de tout cela, le pauvre conférencier a dû essuyer les attaques qui fusaient de toutes parts lors de la période de questions. Pourtant, les traducteurs présents dans la salle, en 2008, je vous le rappelle, pour la plus grande partie des pigistes, ne pouvaient évidemment prétendre dédaigner l’ordinateur, Internet et autres outils informatiques. Notre erreur à tous, traducteurs, informaticiens, donneurs d’ouvrage, confondus, est d’avoir espéré (ou craint) ne serait-ce qu’un instant, que la machine remplacerait l’humain dans la délicate (et mystérieuse) opération qu’est la traduction. Des représentations fictionnelles, comme le BabelFish, que j’ai mentionné en introduction, ainsi que des promesses telles que celles rapportées par les journalistes à l’occasion de la démonstration de Georgetown-IBM contribuent à perpétuer cette méprise. Quelques années plus tard, en 2011, j’ai recueilli les commentaires de quelques traducteurs du BT sur la question des technologies en traduction dans le cadre de ma scolarité de maîtrise. Ces traducteurs se sont tous montrés très conscients de la différence entre « traduction automatique » (traduction faite entièrement par un ordinateur) et « traduction automatisée » (traduction faite par un agent humain aidé d’un ordinateur). Le premier traducteur remarque à ce sujet que « [l]a traduction automatique donne des textes de très mauvaise qualité » tout en mentionnant que « [l]a traduction automatisée est un outil très précieux pour les traducteurs. »^45 La peur de se faire remplacer par une machine reste néanmoins très préoccupante, comme le remarque un deuxième intervenant, qui nuance cependant ses propos pour conclure que « la traduction automatique pourrait nous permettre de nous "débarrasser" de textes répétitifs en [sic] ennuyeux et de nous concentrer sur de réels défis. »^46 L’avis d’un troisième traducteur est encore plus tranché. Bien qu’il ne s’oppose pas à l’utilisation de la traduction automatisée, la traduction automatique le rebute. Il explique : « Tant que ce procédé en sera encore à ses balbutiements, cela ne m’intéresse pas et, au contraire, je dois le combattre et m’opposer à son utilisation, voire son développement, si je veux sauvegarder mon gagne-pain pour quelque temps encore. »^47 Si ce type de prise de position sans équivoque tend lentement à disparaître, c’est surtout parce que les professionnels de la traduction n’ont plus le choix et doivent s’adapter. En effet, plus que l’informatisation du poste de travail, qui a débuté dans les années 70 pour les grands cabinets, puis qui s’est répandue chez les pigistes avec la montée de l’informatique personnelle, c’est l’apparition d’une culture numérique à laquelle ils ne peuvent plus se soustraire qui met en branle un changement profond dans l’univers de la traduction. Car la localisation, soit « the linguistic and cultural adaptation of digital content to the requirements and locale of a foreign market, and the provision of services and technologies for the management of multilingualism across the digital global information flow »^48, change la donne. Michael Cronin explique bien le changement que cela implique : As a result of the digital revolution of the late twentieth century, text has become part of digital content […] Underlying the informatics revolution is the convertibility, the ultimate translatability, of all content to the binary code of machine language. Computers, which initially only received text, now receive sound and images (both static and animated). At one level, the problem for the translator schooled in written and printed textual traditions is how to deal with these multi-modal textual objects. En somme, il s’agit de considérer la traduction à l’ère numérique, non plus comme une étape d’un processus à automatiser, mais plutôt comme un processus à intégrer dans un contexte numérique. Il y a un peu plus de dix ans, Doug Robinson proposait un virage en ce sens : « it may be more fruitful to shift the discussion of human-machine interfaces in the translation field from the MT/CAT/HT triad into the realm of cyborg translation. The motto of this new approach would be : all translators are cyborgs. »^49 Le traducteur et la machine, dit-il, forment une entité traduisante complexe et organisée. Il ne s’agit pas de simple collaboration, mais de symbiose, l’un tirant profit des enseignements de l’autre. « The machine is one of the human’s limbs or organs. Together they are a cyborg. »^50 (Re)Construire l’imaginaire du traducteur-cyborg Si l’imaginaire du cyborg paraît trop connoté aux yeux de certains, je propose néanmoins de chercher du côté des récepteurs de la traduction et des technologies, particulièrement en ce qui concerne la production culturelle « atypique » pour recadrer la traduction dans un contexte numérique. Le cas de deux fansubbers d’animés japonais, que j’ai examiné dans des travaux précédents^51, peut mettre en lumière de nouvelles dynamiques d’appropriation et de distribution culturelle qui sont soutenues par une relation à la technique exempte des préjugés de leurs contreparties professionnelles. La traduction d’un animé peu connu, Berserk, est passée dans ce cas précis dans les mains de deux enthousiastes français, qui ont fait preuve d’une ingéniosité et d’une créativité surprenante quant à l’utilisation des ressources techniques à leur disposition. Passant d’un « raw » déjà sous-titré en portugais, ils utilisent Google Translate et leur connaissance de l’univers berserkien (qui compte un manga de plusieurs volumes et une série animée) pour produire la version française, et Subtitle Edit pour intégrer les sous-titres au film. Constatant que la version anglaise se faisait elle aussi attendre, ils utilisent le même principe pour la langue de Shakespeare. Ce que l’exemple de Berserk démontre par ailleurs c’est que les fans membres de ces communautés agissent à la fois comme commanditaires (même si l’échange d’argent est plutôt l’exception), producteurs, traducteurs, distributeurs, critiques et consommateurs de « nouveaux » animés, en s’appropriant non seulement toutes les étapes de production, mais aussi le produit en soi, l’adaptant selon une éthique qui leur est propre. En somme, si l’imaginaire traditionnel lié à TA, tant sur le plan de la recherche fondamentale, de la recherche appliquée et de l’utilisation professionnelle est « frelaté » comme j’ai tenté ici de le démontrer, il est urgent, pour favoriser la poursuite des avancées technologiques et pour assurer la survie de la profession de traducteur, de recadrer l’utilisation des technologies de traduction automatique et automatisée à l’aide de nouvelles représentations plus positives. La figure du cyborg, comme manifestation de l’appropriation de composantes technologiques par l’humain, ou encore, celle des fansubbers, comme figures rebelles, voire romantiques, transgressant les frontières établies de la profession, pourraient toutes deux servir de hérault/héros pour une nouvelle ère de la traduction à l’ère de la culture numérique. Note finale : Cet article reprend en grande partie mes travaux précédents, mais les revisite à la lumière de nouvelles réflexions. Je remercie les éditeurs de m’avoir permis de partager ces dernières. Voir la bibliographie pour les références complètes. Bibliographie ALPAC, Language and Machines : Computers in Translation and Linguistic, Washington, D.C., National Academy of Science and National Research Council, 1966. Has, Geneviève, « Lorsqu'un Français traduit du japonais sans parler anglais, Guts s'en tire-t-il indemne ? Les « fansubs » de Berserk et la notion de l'acceptabilité en traduction », Journée d’études en littérature et résonances médiatiques, Montréal, Canada, 2013. Has, Geneviève, Le syndrome de Sisyphe dans la recherche en technologies langagières au Canada, Mémoire de maîtrise, Département d’études françaises, Université Concordia, Montréal, Canada, 2014. Has, Geneviève, « La traduction, au cœur des nouvelles pratiques éditoriales », Séminaire Écritures numériques et éditorialisation (Paris-Montréal), Sens-public.org, Montréal, Canada, 2014(b). Hutchins, John, « Out of the Shadows : a Retrospect of Machine Translation in the Eighties », Terminologie et Traduction, n^o 3, 1990, p. 275-292. Hutchins, John, « Latest Developments in Machine Translation Technology : Beginning a New Era in MT Research », MT Summit IV : International Cooperation for Global Communication. Proceedings, July 20-22, 1993, Kobe, Japon, 1993, p. 11-34. Hutchins, John, « The Georgetown-IBM demonstration, 7^th January 1954 », MT News International, n^o 8, 1994, p. 15-18. Hutchins, John, « Machine-Translation : A Brief History », Concise History of the Language Sciences : from the Sumerians to the Cognitivists, E. F. K. Koerner et R. E. Asher (dir.), Oxford, Pergamon Press, 1995, p. 431-445. Hutchins, John, « The Origins of the Translator’s Workstation », Machine Translation, vol. 13, n^o 4, 1998, p. 287-307. Hutchins, John, « Retrospect and Prospect in Computer-based Translation », Proceedings of MT Summit VII “MT in the great translation era”, Low Hwee Boon (dir.), Singapour, AAMT, 1999, p. 30-34. Hutchins, John, « Machine Translation over Fifty Years », Histoire Épistémologie Langage, tome 23, fascicule 1, 2001, p. 7-31. L’Homme, Marie-Claude, Initiation à la traductique, Montréal, Linguatech, 2008. Melby, Alan, The Possibility of Languages, Amsterdam, Philadelphie, John Benjamins Publishing Company, 1995. Pérez, Celia Rico, « From Novelty to Ubiquity : Computers and Translation at the Close of the Industrial Age », Translation Journal [en ligne], vol. 5, n^o 1, 2001, (page consultée le 28 novembre 2011). Quah, Chiew Kin, Translation and Technology, New York, Palgrave Macmillan, 2006. Robinson, Douglas, « Cyborg Translation » dans Susan Petrilli, (dir.), La traduzione. Édition spéciale d’Athanor : Semiotica, Filosofia, Arte, Letteratura [en ligne], 10-2, 1999-2000, p. 219-233, Rosner, Michael, « Machine Translation and Human Translators », Malte, Sunday Times, 25 avril 2005. Somers, Harold, Computers and Translation : A Translator’s Guide, John Benjamin, Amsterdam, 2003. TAUS, 1954 Machine Translation Movie [en ligne], 2010, (page consultée le 15 mai 2013). Tenney, Merle D., « Machine Translation, Machine-aided Translation, and Machine-impeded Translation », Tools for the Trade : Translating and the Computer 5, Veronica Lawson (dir.), Londres, Aslib, 1985, p. 105-113. Traducteurs 1 à 5, Questionnaire. Non publiés, 2011. Weaver, Warren, « Translation », Machine Translation of Languages, William S. Locke et Andrew. D. Booth (dir.), Cambridge (Mass.), The Technology Press of the MIT, 1955, p. 15-24. Wheeler, Peter, « Systran », Machine Translation Today : The State of the Art, Margaret King (dir.), Édimbourg, Edinburgh University Press, 1987, p. 192-208. Whitecomb, Tony, « Statistical methods gaining ground », Language Industry Monitor, n^o 11, Sept-Oct 1992, p. 1-3. Zughoul, Muhammad Raji et Awatef Miz’Il Abu-Alshaar, « English/Arabic/English Machine Translation : A Historical Perspective », Meta, vol. 50, n^o 3, 2005, p. 1022-1041. Notes 1 Pour la référence originale, voir : http://www.bbc.co.uk/cult/hitchhikers/guide/babelfish.shtml 2 Karl Heinz Freigang, « Automation of Translation : Past, Presence, and Future », Revista Tradumàtica [en ligne], n^o 0, octobre 2001, p.1, 3 Plusieurs références à l'appui, parmi de nombreuses autres. Alan Melby, The Possibility of Languages, Amsterdam, Philadelphie, John Benjamins Publishing Company, 1995, p.17. Kristin Demos et Mark Frauenfelder, « Machine Translation’s Past and Future », Wired [en ligne], no 8.05, mai 2000, p. 1, Muhammad Raji Zughoul et Awatef Miz’Il Abu-Alshaar, « English/Arabic/English Machine Translation : A Historical Perspective », Meta, vol. 50, n^o 3, 2005, p. 1024. Michael Rosner, « Machine Translation and Human Translators », Malte, Sunday Times, 25 avril 2005, p.1. Karl Heinz Freigang, loc. cit., p.1. Celia Rico Pérez, « From Novelty to Ubiquity : Computers and Translation at the Close of the Industrial Age », Translation Journal [en ligne], vol. 5, n^o 1, 2001, p.2, John Hutchins, « Retrospect and Prospect in Computer-based Translation », Proceedings of MT Summit VII “MT in the great translation era”, Low Hwee Boon (dir.), Singapour, AAMT, 1999, p. 1. Marie-Claude L'Homme, Initiation à la traductique, Montréal, Linguatech, 2008, p.12. 4 Cette correspondance est reprise dans le Mémorandum de Weaver intitulé Translation. Une copie des textes originaux peut être consultée à l’adresse suivante : http://www.mt-archive.info/50/Weaver-1947-typescript.pdf. 5 « […] as to the problem of mechanical translation, lui répond-il, I frankly am afraid the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasi mechanical translation scheme very hopeful. I will admit that basic English seems to indicate that we can go further than we have generally done in the mechanization of speech. […] At the present time, the mechanization of language, beyond such a stage as the design of photoelectric reading opportunities for the blind, seems very premature. » (Weaver, 1955, p. 19) Wiener, pourtant le mieux outillé pour attaquer le problème aux dires de Weaver, avait bien identifié l’écueil qui guetterait les chercheurs quelques années plus tard. Ainsi, nombre de spécialistes, incluant le « père de la TA » lui-même ont émis des doutes quant aux chances de succès de l’entreprise, mais leurs doléances n’ont pas eu l’effet modérateur escompté. 6 Warren Weaver, « Translation », Machine Translation of Languages, William S. Locke et Andrew. D. Booth (dir.), Cambridge (Mass.), The Technology Press of the MIT, 1955, p. 18. 7 Voir entre autres Geneviève Has, 2014. 8 Première génération : approche directe (il s’agit d’une approche mot-à-mot, utilisant principalement des dictionnaires de correspondance). Weaver la mentionne surtout comme l’approche privilégiée dans l’état « actuel » de la recherche. (Weaver, op. cit., p. 18-20) Deuxième génération : approches indirectes (les approches à base de règles et celles par interlangue sémantique, s’attaquant au problème de la TA en formalisant le processus à l’aide de représentations des langues de départ et d’arrivée, ou à l’aide d’une interlangue sémantique. Des modules séparés de transfert d’une langue à l’autre entrent alors en jeu pour compléter la traduction). Weaver expose longuement sa conception des universaux du langage et justifie ainsi la possibilité de concevoir un système de TA en formalisant complètement le sens de tout énoncé linguistique (Ibid., p. 14-16). Ce type d’approche a fait l’objet de projets de recherches, mais n’a donné que peu de résultats. Weaver, bien conscient de la complexité des langues et des limitations techniques des ordinateurs, propose aussi une approche se basant sur une logique transformationnelle (Ibid., p. 22-23), que l’on peut assimiler à l’approche par règles qui sera la méthode privilégiée des années 70 à 80. Troisième génération : approches par corpus (il existe deux approches par corpus, celles à base d’exemples, qui relève du domaine de l’intelligence artificielle et les approches statistiques, surtout celle utilisant les n-gramme, qui permettent de résoudre le problème du sens à l’aide du contexte et produisent une traduction en fonction de sa probabilité). Weaver se demande, avec beaucoup de justesse quelle devrait être la valeur minimum de n en vue d’obtenir une traduction acceptable dans la majorité des cas. (Ibid.) Les systèmes de TA actuels s’appuient sur une méthodologie très semblable. 9 Warren Weaver, Op. cit., p. 20. 10Ibid., page 24. 11 « And it is one of the chief purposes of this memorandum to emphasize that statistical semantic studies should be undertaken, as a necessary preliminary step. » (Ibid., p. 24) 12 À ce sujet, voir la vidéo d’un entretien avec les chercheurs de l’équipe Georgetown-IBM, qui présentent leurs prédictions (http://www.youtube.com/watch?featur... [TAUS, 2010]). 13 John Hutchins, « The Georgetown-IBM demonstration, 7^th January 1954 », MT News International, n^o 8, 1994, p. 15. 14 Ibid., page 15. 15 Ibid., page 16. 16 Ibid., page 17. 17 Alan Melby, op. cit., page 20. 18 Ibid., page 19. 19 Peter J. Wheeler, dans Machine Translation Today, relate l’anecdote suivante : « if it [Systran] did not produce the apocryphal sentence about steak and vodka, [it] certainly did translate La Cour de justice envisage la création d’un cinquième poste d’avocat général as “the yard of justice is considering the creation of a fifth general avocado station” » (Peter Wheeler, « Systran », Machine Translation Today : The State of the Art, Margaret King (dir.), Édimbourg, Edinburgh University Press, 1987, p. 192.)Pour les détails concernant « the apocryphal sentence about steak and vodka », ou les mythes tenaces concernant la TA, voir Hutchins, 1995, p. 17-18. 21 Il n’en reste pas moins que l’un des systèmes commerciaux les plus anciens, SYSTRAN, a été conçu en approche directe (quoique depuis ses débuts, des modifications y ont été apportées et que le SYSTRAN se trouve maintenant sous la catégorie des systèmes hybrides). Les systèmes directs sont maintenant utilisés pour des paires de langues qui ont une structure et un vocabulaire grandement similaires, de façon à ce que les concepteurs puissent tirer profit de cette similarité et concentrer leurs efforts sur les différences entre les langues, sans que ces dernières ne soient démesurées. 22 ALPAC, Language and Machines : Computers in Translation and Linguistic, Washington, D.C., National Academy of Science and National Research Council, 1966. 23 John Hutchins, « Machine Translation over Fifty Years », Histoire Épistémologie Langage, tome 23, fascicule 1, 2001, p. 7-31. 24 Harold Somers, Computers and Translation : A Translator’s Guide, John Benjamin, Amsterdam, 2003. 25 Ibid., p. 5. 26 Ibid., p. 5-6. 27 Pierre Isabelle, op. cit., p. 14. 28 John Hutchins « Latest Developments in Machine Translation Technology : Beginning a New Era in MT Research », MT Summit IV : International Cooperation for Global Communication. Proceedings, July 20-22, 1993, Kobe, Japon, 1993, p. 11. 29 Id., « Machine Translation over Fifty Years », Histoire Épistémologie Langage, tome 23, fascicule 1, 2001, p. 17. 30 Marie-Claude L'Homme, op. cit., p. 14. 31 John Hutchins, « The Origins of the Translator’s Workstation », Machine Translation, vol. 13, n^o 4, 1998, p. 15. 32 Id., « Latest Developments in Machine Translation Technology : Beginning a New Era in MT Research », MT Summit IV : International Cooperation for Global Communication. Proceedings, July 20-22, 1993, Kobe, Japon, 1993, p. 11. 33 Ibid. 34 Id., « Out of the Shadows : a Retrospect of Machine Translation in the Eighties », Terminologie et Traduction, n^o 3, 1990, p. 277-278. 35 Tony Whitecomb, « Statistical methods gaining ground », Language Industry Monitor, n^o 11, Sept-Oct 1992, p. 1. 36 Chiew Kin Quah, Translation and Technology, New York, Palgrave Macmillan, 2006, p.78. 50 Ibid. 51 Voir Geneviève Has 2013 et 2014b. Avec l’essor de la traduction automatique, quel est l’avenir de la traduction ? Juin 7, 2017 | 0 commentaires Avec l’essor de la traduction automatique, quel est l’avenir de la traduction ? Avec le développement des solutions de traduction automatique, même accessibles à tous via Internet, quel est l’avenir de la traduction ? Les agences de traduction et les traducteurs professionnels sont-ils voués à disparaître ? Quelques éléments de réponse sur ce marché de la traduction en grande mouvance… Que valent vraiment les solutions de traduction automatique ? Avant tout, clarifions la notion de “traduction automatique (TA)”. Il s’agit de traduire un texte ou un contenu audio grâce à un logiciel de traduction informatique, sans faire appel à aucune intervention humaine. Depuis quelques années, et plus encore ces derniers mois, l’on peut constater le développement de ces services de traduction en temps réels dans de très nombreuses langues. Ainsi, Google (Google Translate) ou proposent de “voir la traduction” de tout contenu texte écrit dans une autre langue que celle définie par l’utilisateur. Loin d’être parfaite, cette traduction permet néanmoins à l’utilisateur de se faire une idée du contenu écrit afin d’en comprendre le sens. Quelles sont les typologies de logiciels de traduction ? Aujourd’hui, on trouve trois types de logiciels de traduction automatique : Les outils de traduction développés à partir de l’intégration de dictionnaire et de règles (grammaire, conjugaison, éléments linguistiques. Les dictionnaires peuvent parfois être spécialisés pour offrir un contenu enrichi et donc, plus précis. Déployées dans les années 90, les solutions basées sur l’analogie statistique : le logiciel analyse et compare une quantité de données traduites dans leurs différentes versions et il en déduit la traduction la plus probable. Pour être efficaces, ces systèmes nécessitent souvent une réflexion humaine pour apporter la cohérence et la subtilité manquantes. Lancé en 2010 et en perpétuelle évolution, le deep learning est une révolution dans le développement de l’intelligence artificielle ! Basée sur des algorithmes neuronaux (NMT), la traduction automatique s’enrichit par sa capacité d’apprentissage personnel. Avec des résultats de traduction très satisfaisants, ce système serait d’ailleurs en cours d’intégration par Google pour améliorer significativement la qualité de ses traductions automatiques. De son côté, Microsoft semble aller dans cette voie pour l’amélioration de son outil de traduction en direct de la langue orale intégré à Skype. Face aux géants de l’Internet qui proposent à tous l’accès à leurs outils, SYSTRAN, leader mondial des technologies de traduction (basé à Séoul (Corée) avec des bureaux à Paris (France) et San Diego (États-Unis) oppose la confidentialité de ses traductions et la cession totale des droits sur les traductions à ses clients propriétaires des solutions logicielles installées sur le serveur ou dans le cloud. L’avenir de la traduction, du métier de traducteur ou de traducteur interprète est-il menacé par les logiciels de traduction automatique ? Si les logiciels de traduction automatique semblent prometteurs, ils révèlent toujours des limites à considérer : – une capacité d’enrichissement différente selon les paires de langues et ainsi, des performances de traduction inégales ; – une appréhension plus ou moins qualifiée selon les niveaux de langue ou les spécialités : le langage courant offrant une vaste base de données comparative, sa traduction sera de meilleure qualité que la traduction littéraire ou la traduction de SMS ou encore de jeux de mots ; – pour un texte long, les logiciels manquent de cohérence stylistique. Puisant dans d’innombrables bases de données, le rendu est fatalement contrasté. Si la qualité des traductions automatiques s’améliore au fil des ans, on est encore loin de la qualité obtenue grâce à l’intervention de traducteurs professionnels. L’avenir de la traduction réside ainsi dans le développement de la post-édition qui consiste à intervenir sur un contenu prétraduit grâce aux technologies de traduction afin de l’améliorer, de l’optimiser. Appuyé par ces logiciels qui offrent une prétraduction considérée comme un premier jet, le traducteur gagne en productivité et en rapidité de traitement. Le traducteur modifie, corrige, révise le contenu traduit en tenant compte de la version source, il harmonise le style et enrichit le vocabulaire proposé initialement. En adaptant le processus de traduction par une intervention en “post-edit”, le traducteur optimise son travail par une traduction assistée par ordinateur (TAO). Il pallie alors les limites actuelles du logiciel et valorise son intervention : plus rapide, plus compétitive, plus riche. Poster le commentaire Annuler la réponse Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec La traduction automatique a passé l'écrit et tente de réussir l'oral Dossier Les services de traduction automatique ont lentement mais sûrement gagné en performance depuis une vingtaine d'années et sont aujourd'hui des outils aussi naturels que les correcteurs orthographiques. Ces avancées qui relèvent du domaine de l'intelligence artificielle et s’appuient sur de complexes méthodes de modélisation du langage naturel pour passer d'une langue à l'autre. Les acteurs comme Google ou Microsoft se sont lancés sur le sujet et tente de relever un nouveaux défi : ne plus seulement traduire du texte traduire en direct les paroles d'une personne quand elle parle... Skype traduit le français vers l'anglais, l'espagnol, l'allemand... et même le mandarin ! DossierMicrosoft a annoncé le 12 mai avoir ouvert au public son service Skype Translator, dont l'accès était jusqu'à présent soumis à une inscription et une[…] Skype traduit le français vers l'anglais, l'espagnol, l'allemand... et même le mandarin ! Babel Fish, Skype Translator... l'évolution de la traduction automatique en 5 dates clés Babel Fish, Skype Translator... l'évolution de la traduction automatique en 5 dates clés Bientôt un traducteur vocal instantané pour smartphone signé Google ? Bientôt un traducteur vocal instantané pour smartphone signé Google ? Vidéo : Microsoft teste un service de traduction automatique simultanée sur Skype Microsoft veut "faire tomber les barrières de la langue", souligne Gurdeep Pall, vice-président de Microsoft en charge de Skype, sur le blog officiel de la messagerie. Pour[…] Vidéo : Microsoft teste un service de traduction automatique simultanée sur Skype 2014-12-16 | Informatique , Skype , Microsoft "Une innovation ? Une technologie de traduction réellement efficace", le portrait chinois d'Antoine Denoix Chaque semaine, L'Usine Digitale dresse le portrait chinois d'une personnalité du numérique. Cette semaine, Antoine Denoix, Chief Digital Officer d'Axa France, se prête[…] Une innovation ? Une technologie de traduction réellement efficace, le portrait chinois d'Antoine Denoix 2015-06-03 | Le portrait chinois "Si j'étais une technologie ? La traduction automatique", le portrait chinois de Florian Douetteau Chaque semaine, L'Usine Digitale dresse le portrait chinois d'une personnalité du numérique. Cette semaine,Florian Douetteau, fondateur de Dataiku, se prête au jeu des 13[…] Si j'étais une technologie ? La traduction automatique, le portrait chinois de Florian Douetteau 2015-02-22 | Le portrait chinois La page d'accueil du moteur de recherche Google (illustration). La page d'accueil du moteur de recherche Google (illustration). — M.C./20 MINUTES Si les ordinateurs biberonnés à l’intelligence artificielle peuvent aujourd’hui battre les grands maîtres du jeu de Go ou composer une chanson des Beatles, l’humain conserve fort heureusement une courte longueur d’avance dans quelques domaines. La traduction est l’un de ces bastions : il suffit pour s’en convaincre d’explorer quelques pages Web traduites automatiquement par des logiciels, avec des résultats qui valent bien ce célèbre mème du jeu vidéo japonais : 2/2 Like "All your base are belong to us." Only less excellent. pic.twitter.com/q6hiiHVIJD — Gary Turner (garyturner) September 14, 2016 Mais la machine n’a, bien sûr, pas dit son dernier mot. Google vient ainsi d’annoncer sur son blog dédié à la recherche que son outil Google Traduction – ou Google Trad si vous l’utilisez régulièrement – pouvait à présent se vanter, grâce à l’intelligence artificielle, de résultats un peu plus proches d’une bonne vieille traduction humaine. Réseaux neuronaux Les chercheurs de l’entreprise californienne expliquent ainsi travailler sur une meilleure traduction automatique grâce aux réseaux neuronaux, des fonctions mathématiques qui imitent le fonctionnement de notre cerveau. Ils ont développé un système nommé GNMT (Google Neural Machine Translation) utilisant l’intelligence artificielle pour supplanter l’approche traditionnelle. Au lieu d’analyser des syntagmes (bouts de phrases), comme c’était le cas jusqu’à présent, GNMT ainsi prend en compte la phrase entière, pour nous proposer des traductions moins imbitables. Sur certaines « paires » linguistiques comme le français et l’anglais, Google affirme même que GNMT est proche de la qualité d’une traduction réalisée par un humain. Il est possible de se faire sa propre idée en jetant un coup d’œil à ce document, dont voici un extrait : Selon Google, qui a mesuré la force de son outil sur des pages Wikipédia et des sites d’information avec l’aide de traducteurs bilingues, GNMT réduit ainsi les erreurs de traduction de 55 % à 85 % selon les langues, par rapport à une bête machine. C’est du chinois Mais le défi est d’appliquer le système à des langues moins proches. Google annonce que l’outil GNMT sera dorénavant utilisé directement par l’application mobile et le site Web Google Trad pour assurer des traductions entre le chinois et l’anglais, une combinaison réputée difficile. Malgré d’impressionnants progrès, la traduction automatique a encore une grande marge de progression, préviennent cependant les chercheurs de Google Quoc V. Le et Mike Schuster. « GNMT fait encore de grosses erreurs qu’un traducteur humain ne ferait jamais, comme laisser des mots de côté et mal traduire des noms propres ou des termes rares, ou traduire des phrases de manière isolée au lieu de prendre en compte le contexte du paragraphe ou de la page, expliquent-ils. Il y a encore beaucoup de travail pour fournir un meilleur produit à nos utilisateurs. » Intelligence artificielle Google 0 commentaire 20 partages #LeWebPédagogique Les traducteurs automatiques en ligne apicot 25 juin 2013 commentaire 4 temps de lecture Quels sont les avantages et les limites des traducteurs en ligne gratuits, ces outils que nos élèves utilisent au quotidien ? Comment les exploiter au mieux dans le cadre d’un apprentissage linguistique ? Et quel traducteur utiliser sur son Smartphone ? Quels sites consulter pour trouver des traductions déjà prêtes ? Toutes les réponses dans cet article ! Avant l’arrivée d’Internet, les traductions se faisaient en feuilletant les pages des dictionnaires et en appliquant une réélaboration personnelle sur la base des connaissances syntaxiques du traducteur. Aujourd’hui, à l’ère du web, les traductions automatiques en ligne et gratuites sont sans aucun doute de grandes rivales du dictionnaire traditionnel. Comment fonctionnent les traducteurs automatiques en ligne ? Les traductions sont proposées par des robots qui traduisent des mots et analysent des « segments » de texte. Le robot analyse les phrases, leurs mots et leur format. Puis ils recherchent leur forme de base et analysent la structure de la phrase. Le logiciel commence alors à générer la structure de la phrase dans la langue cible, prenant en compte la forme correcte des mots et, enfin, les informations concernant la mise en page du texte. Quelles sont les conséquences d’une traduction de ce genre ? Le logiciel ne replace pas les mots dans leur contexte. Ainsi, le traducteur automatique de texte ne reconnaît pas toujours le sens dans lequel un mot est employé et la traduction risque d’être risible, même si, certains traducteurs indiquent plusieurs traductions possibles, laissant le choix au traducteur quant au terme approprié. Les avantages des traducteurs automatiques Est-il vrai, comme on le dit sur Comment ça marche.net, que les traducteurs en ligne et logiciels gratuits de traduction sont plus pratiques qu’un dictionnaire et font gagner du temps ? Selon moi, un des avantages de ces traducteurs est qu’ils facilitent la compréhension d’un texte. Imaginez : vous recevez un courriel dans une langue étrangère inconnue, ou encore, un lecteur étranger poste un commentaire à une de vos affirmations : sans le traducteur, pour vous, ces mots ne constituent qu’un charabia incompréhensible ! Bien sûr, la traduction risque de ne pas être parfaite mais au moins aurez-vous une vague idée du contenu et du contexte général du texte. En revanche, j’éviterais de les utiliser pour des traductions professionnelles qui requièrent précision et appropriation des termes. J’éviterais aussi de les utiliser pour les publier sur des blogs ou pour les rendre à des professeurs… Je vous invite aussi à lire l’article suivant : le Top 40 des traductions de merde. Les limites des traducteurs automatiques La « traduction automatique » – ne produit qu’une traduction approximative du texte original, – sert essentiellement à avoir une vision rapide du sens global d’un texte, – est inadaptée pour des traductions professionnelles et de haut niveau. Bien que constamment améliorée, la technologie de traduction en ligne n’est encore qu’à ses débuts. L’outil informatique qui remplacera le travail d’un traducteur professionnel n’a pas encore été inventé. Notebook Creative Commons License photo credit: cheesy42 Comment les exploiter au mieux dans le cadre d’un apprentissage linguistique ? a. Enseigner à utiliser les traducteurs automatiques L’Académie de Nice propose sur son site une séquence pédagogique sur la traduction et les traducteurs en ligne. La méthode proposée invite les élèves à réfléchir sur l’utilisation des traducteurs en ligne. b. S’informer en comparant les différents traducteurs automatiques en ligne. Deux sites ont mené une étude de ce genre : Altissia :Quel est le meilleur traducteur automatique en ligne gratuit ? Cursus.edu : Quel est le meilleur traducteur automatique en ligne et gratuit ? Liste de traducteurs automatiques sur le Portail national éduscol A propos des traductions pour les téléphones portables Sur le site d’Outilstice, l’article 3 bons outils de traduction en ligne propose des outils pour la traduction mobile, notamment des outils à utiliser sur votre smartphone. Selon eux, Google est sans doute le meilleur choix. L’application propose 64 langues différentes, dont 17 dans lesquelles vous pourrez traduire du texte mais également de la voix?! Liens : Google pour Android / pour iOs Sites avec des traductions de textes : Site avec quelques traductions françaises d’e-textes Linguee.fr, est un service en ligne gratuit qui offre la possibilité nouvelle de rechercher du vocabulaire – des mots simples ou bien des expressions – en français et en anglais parmi 50 millions de phrases traduites par d’autres personnes. Les textes de références utilisés par Linguee sont issus du web bilingue, textes donc déjà traduits par une personne – le plus souvent un traducteur professionnel. Les sources les plus importantes sont les textes du Parlement européen, de l’UNESCO ainsi que les textes de brevets. Pour chaque exemple fourni, vous pouvez cliquer sur un lien qui vous redirige vers sa source. Traducteur SMS vers français Commentaires commentaires FLE apicot Voir toutes les publications Et si l'essentiel était dans la pédagogie du bonheur ? Apprendre le FLE – Immersion en classe de français commentaire Annuler Vous devez être connecté pour publier un commentaire. Quel traducteur automatique en ligne gratuit ut... dit : 20 mars 2016 à 2:57 […] “Les meilleurs traducteurs automatiques en ligne et gratuits: comment choisir les meilleurs ? Comment bien traduire ? Les traductions avec les téléphone” […] Connectez-vous pour répondre Cela pourrait vous intéresser aussi... vieux-con Chroniques de profsnon classé Collège : En attendant les quatre commandements À qui le tour ? Tout le monde vous le dira, je ne fais pas encore partie des conservateurs. Les parents se plaignent auprès du principal à cause de ma manière d’enseigner et les collègues me traitent avec dédain de... pcremieu filmprof1re?duit Chroniques de profsnon classé Déformation professionnelle, tout un cinéma Une chronique dessinée d’Anna Commentaires commentaires elise interview-formation Chroniques de profsnon classé Formation des profs : la parole aux stagiaires ! État des lieux On parle souvent en mal de la formation des jeunes profs. Depuis novembre, j’accompagne Anthony et Émilien, étudiants en Master 1 métiers de l’enseignement, de l’éducation et de la formation (MEEF), qui... Emmanuel Grange Dossier : La découverte des métiers au collège Dossier pédagogique Parcours avenir sur la découverte des métiers au collège La découverte des métiers en réalité virtuelle Partagez facilement des documents avec vos élèves On a lu, on a trouvé cela intéressant ! IFRAME: //ws-eu.amazon-adsystem.com/widgets/q?ServiceVersion=20070822&OneJS=1&O peration=GetAdHtml&MarketPlace=FR&source=ac&ref=tf_til&ad_type=product_ link&tracking_id=webpedago-21&marketplace=amazon®ion=FR&placement=22 12570570&asins=2212570570&linkId=94036ecddb6e183da0ae5fcfde2e5545&show_ border=false&link_opens_in_new_window=false&price_color=333333&title_co lor=0066c0&bg_color=ffffff Qui sommes-nous ? Créer / Gérer mon blog au Petit Journal des Profs Demander de l'aide Logo le webpedagogique Un blog gratuit et sans publicité pour votre classe ! La traduction automatique sur Internet Outils, méthodes, enjeux Laetitia Bernaudon , Eva Fontaine La traduction automatique est un outil qui a subi de nombreuses évolutions depuis sa création, notamment avec la démocratisation d'Internet. Aujourd'hui, ce système soulève de nombreux enjeux socio-culturels : comment fonctionne cet outil, quelle utilisation en font les internautes et les professionnels (traducteurs littéraires, éditeurs) ? (déposé le 2015-01-14 18:54:06) La traduction automatique sur Internet : outils, méthodes, enjeux La traduction automatique est un logiciel gratuit, accessible en ligne, permettant de traduire un texte dans une langue de départ vers une autre langue. Les plus connus sont Systran, Reverso, ou encore Google Traduction. D’abord utilisés dans un contexte militaire durant la Guerre Froide, ces logiciels servent aujourd’hui à une multitude d’utilisateurs pour une grande variété de pratiques. La banalisation de ces outils induit divers enjeux : en effet, il est intéressant de se demander qui les utilise et quels en sont les avantages et les inconvénients. Quels enjeux la traduction automatique implique-t-elle aujourd’hui, qu’est-ce que l’arrivée d’Internet a induit comme changements ? Pour répondre à ces questions, il conviendra en premier lieu d’étudier l’évolution de la traduction automatique, de ses usages, et de considérer les problèmes qu’elle soulève aujourd’hui dans un contexte économique et culturel. 1. Les débuts de la traduction automatique Années 1950 : Création de la traduction automatique Dans le domaine de l’informatique, les années 1950 constituent une période de premiers grands succès, tels que le traitement des données numériques, qui en est encore à ses premiers balbutiements aux Etats-Unis et en Grande-Bretagne. La traduction automatiques était alors appelée « traitement automatique des langues maternelles ». Mais à cette époque, la conception de cette pratique s’arrêtait à la simple idée qu’il suffisait de substituer les données numériques en des données alphanumériques, ce qui donnait une traduction très artificielle et non idiomatique dans la langue d’arrivée. Il s’agissait donc uniquement de traduire des mots, et non des expressions, voire des textes entiers comme aujourd’hui. A l’époque, la traduction automatique n’était pas considérée comme une activité reconnue, légitime, et les problèmes complexes liés à la syntaxe n’étaient pas abordés. En 1952, John Hutchins, expert mondial de la traduction automatique, donne une première conférence sur la TA, sans se faire d’illusions quant à l’idée d’une traduction parfaite : le manque de puissances des ordinateurs, ainsi que d’importantes lacunes en connaissances syntaxiques rendent les premiers outils de traduction peu efficaces. Le premier système de TA, présenté au public en 1954, et dont les recherches ont été financées par les États-Unis et la Russie dans un but stratégique, ne peut traduire que quelques phrases russes vers l’anglais, en utilisant un dictionnaire de 650 mots, comprenant 6 règles de grammaire. Ce logiciel, servant surtout à des fins militaires, était basé sur des règles de grammaires, rédigées par des linguistes, et fonctionnait de la manière suivante : la langue source était analysée dans sa structure grammaticale et le logiciel construisait un arbre syntaxique équivalent en langue cible. L’objectif était de donner un accès direct au contenu d’un message sans recourir à un traducteur professionnel. Pendant que les Etats-Unis se limitent à cet usage, les recherches se poursuivent au Canada, au Japon et en Europe, avec notamment la mise en place du système Systran à la communauté européenne en 1976. Premiers usages de la traduction automatique. Tandis que, jusqu’alors, l'intérêt porté à la traduction automatique était surtout motivé par une demande sociale couplée à la curiosité scientifique qui découla, notamment, de la création des premières calculatrices électroniques, le rapport ALPAC de 1966 met fin aux financements de la recherche en matière de traduction automatique de la part des Etats-Unis et favorise la linguistique computationnelle. Cependant, dès la fin des années 60, le besoin du développement de la traduction automatique est renforcé par des décisions législatives. En 1969, le Canada met en place la loi des langues officielles qui a pour but d’officialiser le bilinguisme du pays et de réaffirmer son biculturalisme; une législation qui nécessite un recours accru à des processus de traduction pour permettre aux locuteurs des deux langues officielles d’échanger et donc une recrudescence de la recherche dans la mise en place d’outils de traduction automatique des langues jusqu’alors en perte de vitesse car privée de subventions. Ce besoin accru d’outils de traduction automatique n’échappa pas au Capitaine André Gouin qui, dans sa thèse, développe l’idée du développement du système Systran, un des rares systèmes de traduction à avoir survécu au rapport ALPAC, spécialisé dans la traduction automatique du russe à l’anglais pour la United State Air Force afin de l’adapter à la traduction du français à l’anglais. L’appui que reçut le Capitaine Gouin de la part du gouvernement canadien relança donc la recherche en traduction automatique avec une insistance particulière sur la paire de langues Français - Anglais. Il n’est donc pas étonnant de voir que lorsque la Commission Européenne choisit d’utiliser Systran pour la traduction de ses documents internes; en 1976, la paire de langue la plus développée soit celle anglais - français. Fournie d’origine dans le système, elle a été utilisée sur de nombreux types de documents. Un travail de développement de la traduction automatique dans le sens inverse (Anglais - Français) a été entrepris conjointement par Systran et la Commision afin de prouver la flexibilité du système. Pour cela, on fit cett ois appel à des textes de grands organismes comme le CNRS. La deuxième paire a être développée pour la Commission Européenne, fut celle anglais - italien, afin de montrer qu’il était facile d’ajouter une langue cible à une langue source pré-éxistante et ainsi subvenir aux besoin des locuteurs italiens très présents à la Commission Européenne. Ces utilisations du système Systran par des organismes officiels témoignent de la crédibilité grandissante dont peut jouir la traduction automatique. Délaissée par la recherche scientifique, c’est en outre ces mêmes organismes qui ont permis de relancer l’engouement pour la recherche en traduction automatique dont l’avenir était alors incertain. 2. Évolution : la démocratisation de la Traduction automatique Usages pour les particuliers et les professionnels Depuis la Deuxième Guerre Mondiale, beaucoup de pays ont investi dans la recherche pour élaborer une machine à traduire, et de nos jours, la traduction automatique a resurgi sous la forme de projets de recherche mais également de produits commerciaux destinés au grand public, via Internet. Dans le monde de l’édition, les traducteurs se sont également approprié cet outil, dont la plupart peuvent en apprécier les vertus en en tirer avantage dans leur travail. Peu après l’arrivée des ordinateurs, des logiciels de traitement de texte et correcteurs orthographiques ont été mis à la disposition des traducteurs, ainsi que plusieurs outils dont la firme ALPS, crée en 1980, et utilisée en majorité par de grandes entreprises et des organismes internationaux. Le logiciel Trados, encore utilisé de nos jours, apparaît également en 1984, ainsi que Multitrans, crée quelques années plus tard par le canadien Gerry Gervais. Tous ces logiciels ont pour objectif de simplifier au maximum le travail du traducteur en l’assistant dans le processus de traduction et en lui ouvrant des passages préalablement traduits. Le traducteur professionnel doit maintenant choisir entre deux scénarii : partir d’une traduction automatique vers une traduction humaine, en l’améliorant, ou se servir de la TA en complément, c’est-à-dire en comparant les deux résultats en d’en choisir les éléments qu’il juge les plus pertinents. Dans le premier scénario, le traducteur analyse les résultats de la traduction automatique, et ne garde que quelques parties qui lui paraissent satisfaisantes, ou en corrigeant les incohérences grammaticales, logiques, ou terminologiques ce qui peut constituer un gain de temps : Exemple : élément source : « so long » Traduction automatique : « tellement longtemps » Traduction attendue : « adieu » Dans le deuxième scénario, qui consiste à utiliser la traduction automatique en complément, le traducteur compare le texte à traduire aux mémoires de traduction : il s’agit de la mémorisation de données par un programme dans le but d’épargner à l’utilisateur l’effort de traduire deux fois les mêmes données. Après une interruption des recherches suite au rapport ALPAC en 1966, estimant que la traduction n’offrait pas assez de perspectives, de nouvelles formes de TA refont surface avec la création de MOSES, un logiciel mis au point par Philippe Koehl en 2007, et PORTAGE, un projet lancé en 2004 par le CNRC (Conseil National des Recherches du Canada). Ces deux outils s’appuient sur des données statistiques et se basent sur des ensembles de textes afin de construire un modèle de traduction. Les traducteurs professionnels sont à nouveau pris en compte dans les nouveaux objectifs des traducteurs automatiques. outils de traduction : fonctionnement et limites La traduction automatique comprend en fait différent types de processus informatiques de traduction. En matière de traduction via informatique, différentes techniques et écoles s’opposent. Un système de traduction automatique basé sur les règles ou exemples doit être capable de maîtriser des règles grammaticales et syntaxiques propres à la fois à la langue source et à la langue cible afin de pouvoir reproduire des textes corrects de façon syntaxiques mais aussi sémantiques. C’est le cas de Systran dont nous avons déjà parlé. Ce genre de systèmes de traduction sont conçus conjointement par des experts informatiques et des linguistes qui fixent ces régles précises. Ils font appel à de nombreux dictionnaires spécialisés dans différents domaines pour coller au mieux au contexte du texte source. Ainsi, le traducteur-machine peut prendre en compte (avec plus ou moins de justesse) la dimension sémantique du texte. Néanmoins, l’élaboration d’un tel système et son perfectionnement coûtent cher en personnel très qualifié et la traduction automatique basée sur les règles ou exemples n’est donc pas un système très propice à une commercialisation de masse. Les moteurs de recherche et autres sites internet souhaitant intégrer un outil de traduction automatique se tournent donc vers la traduction automatique statistique. 3. Enjeux économiques et culturels Economie de la traduction : l’exemple de Google traduction L’essor de la traduction automatique se poursuit dans un secteur plus mercantile, avec l’apparition d’une multitude de sites accessibles en ligne, proposant des traductions rapides et gratuites : Systran, Reverso, FreeTranslation.com, ProMT-Online, Babylon, WordLingo, Yahoo, Lexicool… Le plus populaire de ces sites est Google Traduction qui est, selon une enquête comparative réalisée par ALTISSIA en 2014, le traducteur en ligne le plus utilisé sur le Web (sources : http://www.altissia.com/blog/fr/quel-est-le-meilleur-traducteur-en-lign e-gratuit/) En effet, depuis 2006, Google Traduction, un système également basé sur une analyse statistique, propose une traduction dans plus de 74 langues. Développement des échanges interculturels La traduction est essentielle à la circulation des idées, ainsi que pour le partage et l’échange culturel entre différents pays, et permet une large diffusion des créations artistiques. La littérature étrangère est notamment un secteur grandissant dans le monde de l’édition, et de plus en plus de cultures peuvent ainsi être entendues. Avec la traduction automatique, les éditeurs font face à de nouveaux obstacles : comme nous le savons déjà, la traduction littéraire implique de maîtriser non seulement une langue étrangère dans sa totalité mais également l’arrière-plan culturel lié à cette langue, ce qu’une machine ne peut pas assurer dans le processus de traduction. Traduire signifie comprendre un texte de départ et le restituer dans une langue d’arrivée, établir un pont entre deux cultures, deux communautés linguistiques, et faire des choix relevant en grande partie de notre subjectivité, de notre représentation du monde. Les aspects linguistiques et culturels de la traduction sont au centre de la réflexion du traducteur. Alors que la traduction automatique permet une traduction au mot à mot en une fraction de seconde, Il apparaît intéressant de concilier la rapidité de la traduction automatique à la traduction réfléchie, intelligible que produit le traducteur : cette pratique récente est appelée la post-édition. Le texte de départ est traité par un logiciel de traduction automatique, avant d’être revu et corrigé par un professionnel pour le rendre humainement compréhensible. Le but de cette nouvelle activité est avant tout d’ordre économique : il faut traduire plus, plus vite et moins cher. Cette pratique fait les grandes institutions internationales telles que l’Union européenne, ainsi qu’une multitude de maisons d’édition et d’agences de traduction, et se développe en subissant de nombreuses évolutions. La traduction est une pratique peu reconnue et pourtant essentielle dans la diffusion d’un patrimoine culturel et la découverte de cultures étrangères. Comme Internet, elle fut crée en premier lieu à des fins militaires avant de se démocratiser et de devenir accessible au grand public. Les nombreuses évolutions qu’elle a connues soulèvent des questionnement socioculturels et modifient les activités professionnelles liées aux échanges internationaux. Pour les éditeurs en particuliers, cette pratique constitue un enjeu majeur. Notes de lecture Vidéos des cours d'amphi Les vidéos du cours de Culture numérique sont filmés, montés et mis en ligne par le CEMU (Centre d'enseignement multimédia de l'Université de Caen). Ces documents sont sous licence ressources éducatives libres. Ré-utilisation, découpage d'extraits, enrichissement des diapositives sont les bienvenus. Cours 2014 + Introduction (partie 1 - partie 2) + Histoire de l'internet (partie 1 - partie 2) + Vidéo et télévision (partie 1 - partie 2) + Démocratie technique et puissances industrielles (partie 1 - partie 2) + Néodocument : le document à la lumière du numérique (partie 1 - partie 2) + Sociabilité / Vie privée : l'identité et l'influence (partie 1 - partie 2) + Data : un monde calculable (partie 1 - partie 2) + Perspectives : vectorialisme ou communs ? (partie 1 - partie 2) Cours 2012 Principes du travail de synthèse Les travaux présentés ici sont issus du cours de Culture numérique de l'Université de Caen, année 2014-2015. Il s'agit de notes de synthèses préparés par les étudiant(e)s sur des sujets liés à l'enseignement. Depuis 2009, un cours de Culture numérique est dispensé dans le cadre de plusieurs enseignements au sein de l'Université de Caen Basse-Normandie. Pour l'année universitaire 20014-2015, les étudiants des formations suivantes ont suivi cet enseignement : Master M1 - Document numérique en réseau -- ingénierie de l'internet Master M1 - MEEF - Option Documentation Master M1 - Édition, Mémoire des Textes Master M2 - Management du Sport Master M2 - GREEN - Licence professionnelle - ATC - Webmestre Les synthèses proposées ici sont issues de travaux pratiques en groupe de trois personnes. Un gros travail de lecture, de recherche de documents image et vidéo a été réalisé. Nous espérons que les synthèses aideront celles et ceux qui découvrent les sujets concernés. Cours de Culture numérique -- 2013-2014 -- Université de Caen -- Enseignant : Hervé Le Crosnier -- Mentions légales -- Contact -- Licence Creative Commons CC-by-sa connexion Nouveau monde. La traduction automatique pour faciliter la communication à l'étranger Tout l’été on vous aide à mieux vivre le numérique du côté pratique. Lundi, franceinfo vous fait découvrir plusieurs logiciels de traduction automatique qui pourraient faciliter vos échanges à l'étranger. () () --'-- --'-- () (BUTTON) (BUTTON) ____________________ () Copier Copié dans le presse-papier ! avatar franceinfoJérôme ColombainRadio France Mis à jour le 06/08/2018 | 12:29 publié le 06/08/2018 | 12:29 Un avertissement en portugais traduit en langue anglaise, grâce à l\'application Google Traduction. Un avertissement en portugais traduit en langue anglaise, grâce à l'application Google Traduction. (GLENN CHAPMAN / AFP) Si vous passez peut-être vos vacances à l’étranger, il vous sera peut-être difficile de communiquer dans une autre langue. Heureusement, la technologie est là, notamment les applications de traduction automatique. Il en existe de très performantes, comme celles que franceinfo vous présente. Les applications de traduction L'application Google Traduction est gratuite et peut traduire 70 langues. Elle dispose également d'un mode hors-ligne vous permettant de traduire des langues étrangères sans disposer de connexion à internet. Assurez-vous toutefois de télécharger les langues qui vous intéressent avant votre voyage. Google Traduction présenter également la fonctionnalité de traduction par photo. Elle vous permet de traduire des affiches, des menus de restaurant, des journaux... Elle est disponible sur iOS et Android. Microsoft Traducteur traduit 60 langues et est elle aussi gratuite et peut être téléchargé pour les smartphones iOS et Android. Elle dispose du mode photo, tout comme Google Traduction. Elle présente par ailleurs une reconnaissance vocale et un mode conversation qui permet de traduire la conversation de deux interlocuteurs qui se partagent un écran. Il est également possible de connecter plusieurs mobiles. Fonctionnelle même en étant hors-ligne, son seul point faible réside dans ses chargements lents et son ergonomie, qui ne facilitent pas une utilisation rapide. Le récent Samsung Galaxy S9 intègre le système d'intelligence artificielle Bixby Vision qui vous offre la possibilité de traduire un texte en langue étrangère en le prenant en photo grâce à l'appareil photo du téléphone. Les oreillettes de traduction automatique Si vous souhaitez réaliser votre rêve de traduction simultanée, que voulez dialoguer avec une personne chinoise ou russe, les oreillettes de traduction automatique peuvent être une alternative intéressante. En effet, votre interlocuteur parle dans sa langue face au micro de votre smartphone pendant que vous entendez la traduction en français de ce qu'il vous dit, et le tout, dans vos oreillettes. Lui aussi vous entendra dans sa langue, soit, à travers des oreillettes, soit, à travers le haut-parleur du smartphone. Plusieurs modèles d'oreillettes existent : les Mymanu (lien en anglais) conçus par Click, les Weverly de Pilot, et celles de Google, les Pixels Buds. Ces petites oreilles peuvent traduire une quarantaine de langues et coûtent entre 160 et 270 dollars, mais ne sont pas disponibles en France. Ces oreillettes sont en réalité des oreillettes connectées à un smartphone utilisant une application de traduction automatique et présentent quelques limites. Les Pixels Buds sont réservés au smartphone Google Pixel et plus généralement, une connexion Internet est obligatoire. Aussi, la traduction est perfectible et présente quelques lenteurs. Il s'agit donc d'un dispositif prometteur mais pas encore aussi performant que l'on souhaiterait. A lire aussi Nouveau monde. Des applications et des objets connectés pour prendre la route en toute sécurité Nouveau monde. En vacances, la télé, où que vous soyez ! Nouveau monde. Comment écouter des podcasts sur son smartphone ? Nouveau monde. Comment écouter de la musique en streaming ? Nouveau monde. Comment votre smartphone peut vous aider à vous déplacer ? Comparaison des systèmes de traduction automatique Fin 2018 1. home 2. blog 3. Laboratoire d'essais HI-COM 4. Traduction 5. Comparaison des systèmes de traduc ... Comparaison des systèmes de traduction automatique Fin 2018 Comparaison des systèmes de traduction automatique Fin 2018 octobre 29, 2018 Alexandre QUINCÉ Comparaison des systèmes de traduction automatique Il y a quelques années, bon nombre de traductions effectuées par des traducteurs automatiques laissaient à désirer. Depuis, les programmes se sont améliorés. Les services de traduction automatique sont tous basés sur des technologies similaires, fondées sur l’apprentissage automatisé. Les groupes majeurs d’informatique se sont vite saisis de l’opportunité naissante de pouvoir créer des logiciels ou des sites en ligne permettant de traduire des textes avec plus ou moins d’exactitude. Cependant, ce genre de traducteur automatique, qui puise ses ressources dans des bases de données, ne capte parfois pas le sens des phrases ou les expressions. C’est là le point faible de ces machines. Nous allons aujourd’hui comparer les traducteurs automatiques DeepL, Google Traduction, Yandex, Reverso et Baidu. Pour faire nos tests, nous nous sommes servi de trois textes différents : le poème « To make a prairie » de Emily Dickinson, un document technique (extrait d’un manuel de la Nintendo Switch) et un article de presse sur l’ouverture du pont le plus long en Chine. La traduction s’est faite de l’anglais vers le français. Sommaire: Présentation des systèmes de traduction automatique 1. DeepL 2. Google Traduction 3. Yandex 4. Reverso 5. Baidu 6. Tableau bilan Comparaison des systèmes de la traduction automatique 1. To make a prairie 2. Manuel de la Nintendo Switch 3. L’article de presse sur l’ouverture du pont le plus long en Chine Présentation des systèmes de traduction automatique __________________________________________________________________ DeepL : comparaison systèmes de traduction automatique deepl comparaison systèmes de traduction automatique deepl Le traducteur automatique DeepL puise ses traductions dans les bases de données de linguee.com, un dictionnaire en ligne très utilisé. Les langues disponibles pour les traductions sont français, anglais, allemand, espagnol, italien, néerlandais et polonais. Les langues traduites sont ainsi très limitées ! La traduction se fait automatiquement au fur à mesure que l’on écrit dans la case prévue à cet effet. On peut cliquer sur un mot de la case traduite pour voir sa signification et accéder à d’autres propositions. Quand l’utiliser ? C’est le petit chouchou du moment, c’est vrai qu’il a des tournures de phrase souvent meilleures que Google Traduction mais il a un répertoire de langues très limité. Pour la traduction de documents professionnels, il vaut mieux se faire relire et corriger par un humain, il y a toujours de fautes, surtout avec le féminin/ masculin pour les langues latines. __________________________________________________________________ Google Traduction : systeme de traduction automatique google traduction systeme de traduction automatique google traduction Google Traduction est l’un des premiers traducteurs en ligne. Il proposait au début de sa création des traductions plus qu’approximatives, mais il s’est nettement amélioré au fil du temps. Il fait maintenant partie des meilleurs traducteurs automatiques et a une multitudes de langues compatible. Comme DeepL, la traduction se fait au fur et à mesure que l’on écrit le texte, sans que l’on ait besoin d’appuyer sur une touche ou sur « traduire ». On peut également cliquer sur les mots pour obtenir d’autres propositions. Un petit plus par rapport à DeepL, on peut également écouter la traduction. Quand l’utiliser ? Tout comme Microsoft Traduction, que nous n’avons pas évoqué pour sa ressemblance en terme d’efficacité avec Google, ces deux traducteurs sont les passe-partout, ils ont un très grand nombre de langues à leur actif et font plutôt bien leur travail. Attention cependant à éviter les langues asiatiques et à bien faire relire votre document par un natif si celui-ci est important. Google Traduction – Quand l’utiliser (et quand ne pas l’utiliser !) IFRAME: https://www.hicom-asia.com/fr/2018/09/14/quand-utiliser-google-traducti on-et-quand-ne-pas-lutiliser/embed/#?secret=oKww66jo7I __________________________________________________________________ Yandex : systeme de traduction automatique yandex systeme de traduction automatique yandex Yandex est un moteur de recherche et un portail russe. Son service de traduction en ligne est basé sur le même principe que DeepL et Google Traduction. On pourrait plutôt le comparer à celui de Google Traduction qu’à celui de DeepL puisqu’il est également doté d’une fonction pour écouter la traduction. Les langues de traduction possibles sont nombreuses tout comme Google Traduction. Quand l’utiliser ? Yandex est à utiliser pour la traduction vers le Russe ou bien l’inverse, c’est dans cette circonstance qu’il surpasse ses homologues. __________________________________________________________________ Vous êtes intéressés par les principes et le fonctionnement de la traduction automatique ? Lisez notre article sur son Histoire ! Histoire de la traduction automatique IFRAME: https://www.hicom-asia.com/fr/2018/08/01/histoire-de-la-traduction-auto matique/embed/#?secret=G9nxoCToft __________________________________________________________________ Reverso : systeme de traduction automatique reverso systeme de traduction automatique reverso Reverso est une gamme de logiciels de traduction et un portail internet qui proposent un ensemble d’outils linguistiques. Son service de traducteur automatique propose les langues : Allemand, Anglais, Arabe, Chinois, Espagnol, Français, Hébreu, Italien, Japonais, Néerlandais, Portugais, Russe et Roumain. Le procédé de traduction est le même que pour les trois traducteurs automatiques vus précédemment. Quand l’utiliser ? Reverso s’en sort moins bien que Google dans bien des tests pour un nombre de langues inférieure mais d’un autre côté il propose un service pour la correction les fautes d’orthographes. __________________________________________________________________ Baidu : systeme detraduction automatique baidu translate systeme detraduction automatique baidu translate Baidu est une entreprise internet chinoise et un moteur de recherche très utilisé en Chine. Tout comme Google ou Yandex, qui sont également des moteurs de recherches, Baidu a également développé un service de traduction automatique. A contrario des autres traducteurs présentés précédemment, pour celui-là il faut cliquer sur le bouton « traduire » afin que la traduction s’opère. Baidu a été tres clairement fait pour les chinois, les traduction du chinois vers une autre langues ou l’inverse sont souvent meilleures que celles de Google, par contre c’est lors de traduction entre des langues autre que le chinois que Baidu se perd et devient moins efficace que Google. Quand l’utiliser ? Pour traduire du chinois dans une autre langue ou l’inverse. Cependant évitez les trop grande quantité de texte ou de l’utiliser pour vos documents les plus importants. En effet, les caractères asiatiques sont à double tranchant et une mauvaise traduction peut facilement vous faire perdre la “face”. __________________________________________________________________ Comparaison des systèmes de traduction automatique « To make a prairie » Suite à la comparaison de ces cinq traducteurs automatiques, on remarque que les traductions du poème sont identiques pour DeepL et Google Traduction. Ils ne s’en sont d’ailleurs pas si mal sortis et traduisent l’essentiel du poème. Ce n’est cependant pas la même chose pour Yandex, Reverso et Baidu ! Reverso a traduit « revery » (« rêverie ») par « retrès » et Baidu n’a même pas réussi à le traduire. La syntaxe de phrase est d’ailleurs le point faible de Baidu puisque la traduction du premier vers qu’il a fourni n’est pas du tout correcte. Yandex et Reverso ont aussi des soucis de traduction avec l’avant dernier vers. __________________________________________________________________ Manuel de la Nintendo Switch Pour la traduction du manuel de la Nintendo Switch, il est étonnant de voir que les systèmes de traduction automatique ont eu du fil à retordre. DeepL et Google Traduction se démarquent un peu de leurs concurrents puisqu’ils fournissent une meilleure traduction. Il reste toutefois quelques coquilles telles que « pour tenir la console debout afin qu’elle puisse être jouée », ce qui n’est pas français du tout ou encore « afin qu’elle puisse être lue » pour Google Traduction. Yandex ne s’en sort pas trop mal, mais a également du mal pour la même phrase que DeepL et Google Traduction. Quant à Reverso, c’est une catastrophe. Dès la première phrase, il traduit « case » (étui) en « cas »… Baidu est celui qui s’en sort le moins bien, avec une syntaxe des phrases qui laisse à désirer, rendant la traduction incompréhensible. __________________________________________________________________ L’article de presse sur l’ouverture du pont le plus long en Chine La traduction de l’article de presse s’avère être le point fort des systèmes de traduction automatique. Les traductions ne sont pas parfaites, mais les traducteurs automatiques arrivent à traduire l’essentiel du texte. DeepL a cependant fait une maladresse de traduction qu’un traducteur humain n’aurait pas fait. Il s’agit de la traduction du « it » (désignant ici le pont) qui est difficile à traduire puisqu’il n’existe pas de pronom similaire en français. DeepL l’a traduit par « elle » alors que le sujet de la phrase est masculin. Les traducteurs ont par ailleurs du mal à traduire les tournures de phrase typiquement anglaises. Reverso et Baidu sont les traducteurs avec le plus de fautes et leurs traductions sont beaucoup moins compréhensibles. __________________________________________________________________ Tableaux bilan: DeepL Google traduction Yandex Reverso Baidu Langues disponibles ★ ★★★★ ★★★★ ★★ ★★★★ Qualité de la traduction pour le poème ★★★★ ★★★★ ★★ ★★ ★ Manuel de la Nintendo Switch ★★★ ★★★ ★★ ★ ★ L’article de presse ★★★ ★★★★ ★★★ ★ ★ __________________________________________________________________ Pour conclure, nous pouvons donc dire que les traductions des systèmes de traduction automatique DeepL, Google Traduction et Yandex sont satisfaisantes, mais il faut quand même faire attention à certaines fautes qu’ils peuvent commettre. Certaines phrases sont correctes, mais on ressent la traduction très linéaire et plate, qui manque de vitalité. L’utilisation des traducteurs Reverso et Baidu sont à éviter car ils présentent énormément de fautes et de maladresses. Néanmoins, il y a eu beaucoup de progrès et la qualité de ces systèmes de traduction automatique ne va qu’en s’améliorant. Les traducteurs automatiques restent néanmoins loin de la perfection des performances humaines. L’homme reste la meilleure machine pour traduire, mais surtout la plus fiable. Pour cette raison, vous pouvez faire appel à nos services en nous contactant si vous avez besoin d’une traduction. Yann Le Cun: "La traduction automatique est une priorité de " Yann Le Cun dirige le centre de recherche mondial en intelligence artificielle de . Yann Le Cun dirige le centre de recherche mondial en intelligence artificielle de . - Brian Ach-GETTY IMAGES NORTH AMERICA-AFP Pour le directeur de la recherche en intelligence artificielle de , le réseau social a, dans ses priorités, le perfectionnement de la traduction automatique des contenus de ses membres. Deux milles paires de langues sont déjà traduisibles dans les deux sens. " ne pourrait pas fonctionner tel qu'il est aujourd'hui sans l’intelligence artificielle" explique Yann Le Cun, de passage sur l'antenne de BFM Business. Directeur du laboratoire de recherche en intelligence artificielle du géant américain, dont une antenne a été créée à Paris en 2015, ce chercheur français renommé dirige 110 chercheurs et ingénieurs qui développent les technologies du futur. "On essaie de pousser l'état de l'art, de faire avancer la science et de développer des technologies qui puissent être utilisées dans les produits" explique-t-il. "La traduction automatique des contenus publiés dans fait appel à des technologies d'intelligence artificielle. Le but est de traduire le post de quelqu'un dont vous ne comprenez pas la langue. Pour cela, il faut que le système comprenne au moins superficiellement le sens de la phrase et ensuite être capable de la transcrire dans une autre langue. Il y actuellement deux mille paires de langues qui peuvent être traduites dans les deux sens" souligne Yann Le Cun. "La traduction ne marche pas encore parfaitement" "La traduction automatique est prioritaire pour car sa mission est de connecter les gens entre eux. Cela permet à des membres de communiquer entre eux sans parler la même langue" argumente le chercheur. Il concède que tout n'est pas abouti en la matière. "La traduction automatique ne marche pas encore parfaitement. Elle est utile mais on n'est pas encore capable de traduire un roman en entier sans commettre de contresens" ajoute-t-il. Les progrès dans l'intelligence artificielle sont issus du décollage de méthodes dites "d'apprentissage profond" (deep learning) qui ont amené des progrès énormes dans la qualité de la traduction automatique ou la reconnaissance de la parole et d’images. "Ce sont aussi ces techniques qui permettent de concevoir des systèmes de vision destinés aux véhicules autonomes. Ces méthodes d'apprentissage sont toutefois limitées. Elles ne donnent pas la clé pour comprendre comment les humains peuvent apprendre aussi vite" conclut ce grand spécialiste de l'intelligence artificielle. Frédéric Bergé 0 A lire aussi Intelligence artificielle: selon , l’industrie a raté un virage A lire aussi Intelligence artificielle: selon , l’industrie a raté un virage #L'ÉCOLE DE DEMAIN » Flux L'ÉCOLE DE DEMAIN » Flux des commentaires L'ÉCOLE DE DEMAIN » Le traducteur automatique, c’est pas magique… Flux des commentaires Tweeter en CM1 Apprendre à l’école maternelle alternate alternate L'ÉCOLE DE DEMAIN WordPress.com L'ÉCOLE DE DEMAIN Dessinons l'école pour la réussite de tous les élèves de la maternelle au lycée – Le blog Education du SE-Unsa Le traducteur automatique, c’est pas magique… 12 mai 2012 · par Stéphanie de Vanssay · dans Enseigner au quotidien, Innover sur le terrain. · Il y a des phrases comme : «Monsieur, y a un correcteur automatique pour l’anglais ?» ou bien : «Un traducteur automatique c’est un site où on tape en français et ça parle en anglais.» ou alors : «Si le professeur demande d’écrire une autobiographie en anglais, on utilise un site de traduction comme ça c’est plus simple.» qui me font tweeter des phrases comme celle ci : brufrench : «L’enfant se contente assez souvent d’explications qui satisfont son goût de la poésie et sa paresse, au lieu d’aller au fond des choses.» (G.Belbenoit) Les élèves, c’est de bonne guerre, cherchent souvent la facilité. Les professeurs, ces donneurs de leçons, ces despotes empêcheurs de paresser en rond, ces complexificateurs compulsifs, sont là uniquement pour rendre pénible une tâche qui paraissait assez simple au départ. Les mathématiques ont les calculatrices, les lettres ont les correcteurs orthographiques, l’enseignement des langues a le traducteur automatique. Ce sont autant d’outils technologiques qui, pour les experts, constituent un gain de temps et une aide, mais auxquels hélas, les élèves d’aujourd’hui sont encore peu éduqués. Pour le professeur de langues en France, le traducteur automatique est le plus souvent un objet qui inspire des craintes, et que les plus technophobes vouent aux gémonies. Le traducteur automatique serait un danger, et les élèves ne devraient pas l’utiliser. A l’instar des réseaux sociaux et du téléphone portable, il faudrait en restreindre l’usage et faire comme si ces outils technologiques n’existaient pas. Dans leurs pratiques, plusieurs collègues ont été amenés à supprimer l’évaluation d’une éventuelle recherche personnelle et se trouvent de plus en plus gênés par des devoirs à la maison qui ne sont que des copiés-collés d’un traducteur automatique. L’enjeu est important. Avec la multiplication des appareils numériques, de l’omniprésence d’Internet dans la société actuelle, il n’est pas pensable d’exclure des outils que les élèves se sont d’ores et déjà appropriés. Dans cet article je vais m’efforcer de montrer qu’il est possible d’amener les élèves à une utilisation intelligente, raisonnée et pertinente du traducteur automatique. I) Traducteur automatique et pensée magique : ÇA traduit Utiliser le traducteur automatique pour un élève en difficulté devant sa copie d’anglais, c’est une alternative séduisante. Un peu comme Aladin qui n’a qu’à frotter sa lampe et faire un souhait pour devenir riche et beau, l’élève à qui on a demandé d’écrire un paragraphe en anglais et auprès duquel on a lourdement insisté pour qu’il n’écrive pas d’abord en Français, pourra se contenter, le soir venu et pour en finir une fois pour toutes, de gribouiller trois lignes en français puis de les taper dans la case du premier site de traduction venu, d’appuyer sur «traduire», de copier ou d’imprimer, puis, le sens du devoir accompli, vous tendra fièrement son devoir le lendemain en vous disant, «j’ai fait ça Monsieur, c’est bien ?» Vous apprécierez qu’il ait passé de son précieux temps à imprimer une page en pensant brièvement qu’il avait des devoirs, et vous consolerez en vous disant qu’au pire, l’exercice que vous lui avez demandé lui aura au moins servi à essayer de s’exprimer dans un français correct pour pouvoir faire faire le travail de traduction à une machine dont on n’attend pas, de sa part à elle, qu’elle soit autre chose que binaire. Lors de mon année de stage, qui a eu lieu en 2006, l’usage des traducteurs automatiques commençait déjà à se répandre parmi les élèves, et plusieurs expériences ultérieures m’ont conduit à me méfier de l’utilisation qu’en faisait mes élèves. Mais en tant que professeur stagiaire, je n’avais pas encore bénéficié d’une formation sur «comment gérer les élèves qui utilisent un traducteur automatique pour écrire un paragraphe sur un sujet donné». Je n’ai pas mis zéro à l’élève qui avait utilisé un traducteur pour lui apprendre qu’il ne fallait pas faire ce qu’il avait fait ; il ne se rendait pas compte que la traduction du paragraphe qu’il avait écrit en français n’était pas compréhensible par un anglophone. Il avait simplement cru ou bien espéré que l’outil de traduction aurait tenu sa promesse, qu’elle lui aurait fourni une traduction qui serait sans failles car issue d’un instrument infaillible, l’ordinateur. La déception de l’élève fut grande lorsque je pris l’initiative de faire retraduire en français par le traducteur ce qui avait été donné comme étant de l’anglais dans la copie : j’ai demandé à l’élève de lire le passage en français et de me dire s’il comprenait quelque chose au texte qu’il lisait. Il me répondit que ce que je lui demandais de lire n’avait aucun sens. Ce à quoi, je lui ai dit que c’était ce que le traducteur avait dit qu’il avait écrit, puis, après lui avoir conseillé d’utiliser le traducteur pour traduire des mots ou des bouts de phrase plutôt que de copier-coller des textes entiers pour en obtenir une traduction non satisfaisante, je lui indiquai qu’il valait mieux se fier à ses propres connaissances pour faire ses devoirs. Six ans plus tard, la donne a changé. Tous les élèves ont accès à un ordinateur, et nombreux sont ceux qui entendent confier leur apprentissage de l’anglais à cette merveilleuse machine qui traduit pour eux ce qu’ils n’ont pas envie de faire l’effort de comprendre. Ce qui est mis en jeu ici, dans l’apprentissage, c’est la notion même de nécessité forte d’apprendre à parler une langue étrangère pour communiquer avec autrui : Pourquoi irai-je m’embêter à apprendre l’anglais alors qu’il me suffit de taper ce que je veux dire à une personne pour le voir traduit un quart de seconde plus tard sans me fatiguer. Ainsi lorsque je pose la question: «A quoi peut servir un traducteur automatique ?», très peu osent dire que ça peut servir à ne pas trop se fouler pour faire ses devoirs, même si l’un d’entre eux a le courage d’avouer tout net : «Si vous nous demandez d’écrire une autobiographie, on utilise un site de traduction comme ça c’est plus simple». C’est de cela qu’il s’agit pour une partie des élèves : se simplifier la vie et préférer l’apparence du travail à une démarche de construction de l’apprentissage, et c’est précisément pour cela qu’il est nécessaire d’éduquer les élèves à ce type de technologie. II) Ça traduit mal : Les obstacles à l’apprentissage Pour expliquer à mes sixièmes quelles étaient les limites et les risques qu’impliquent l’utilisation des traducteurs en classe de langue, je leur ai proposé de traduire avec moi un extrait de la biographie de la Reine Elizabeth dont voici la version de départ : The Queen was born on April, 21 1926. When Elizabeth was 10 years old, her father was crowned King of England and the family moved to Buckingham Palace. The young princess did not go to school. She studied at the Palace. She studied all the usual school subjects, plus the law, art and music.Dans ce début de biographie, on apprend entre autres choses que la Reine avait 10 ans lorsque son père a été couronné Roi d’Angleterre, que la Famille Royale a déménagé à Buckingham Palace, et qu’Elizabeth en plus des cours habituels avaient suivi un enseignement du droit, de l’art et de la Musique. Pour cette première phase, les élèves ont été invités à inférer le sens des mots en fonction de leur place dans la phrase, ils ont été aidés par les apports lexicaux que j’avais choisi de leur apporter pour qu’ils puissent s’approprier le texte sans traduire mot à mot. Ainsi, seul le mot «crown» a été donné aux élèves et il a été observé qu’il s’agissait d’une forme passive et que le couronnement avait dans la phrase un lien avec l’âge donné. Il fallait bien comprendre que le père d’Elizabeth avait été couronné l’année des 10 ans de sa fille et non pas que le père était Roi quand Elizabeth avait 10 ans ce qui laisserait supposer qu’il avait pu être couronné bien avant les 10 ans d’Elizabeth. Même chose pour le terme «moved» qui peut être mal compris, il était important que les élèves comprennent qu’il s’agissait d’un déménagement organisé et volontaire et qui faisait suite au couronnement du père de la future Reine. Enfin il a fallu faire inférer le sens du mot «law», qui est un faux-ami et qui désigne le Droit et non la Loi. Lorsque le sens du texte et ses nuances ont été entrevus par l’ensemble des élèves, j’ai proposé de passer le texte au traducteur afin que l’on compare la version dont on avait convenu et la version traduite par le traducteur automatique: La Reine est née le 21 avril 1926. Quand Elizabeth avait 10 ans, son père était le Roi couronné de l’Angleterre et la famille déplacée au Palais de Buckingham. La jeune princesse n’est pas allée à l’école. Elle a étudié au Palais. Elle a étudié tous les sujets scolaires habituels, plus la loi, l’art et la musique. La comparaison entre les deux versions du texte laisse clairement apparaître que la traduction automatique comporte plusieurs approximations et imprécisions en raison des subtilités syntaxiques et sémantiques qui ont été évoquées plus haut. Ici, le père d’Elizabeth «était le Roi couronné de l’Angleterre, quand Elizabeth avait dix ans» la famille a été «déplacée» au palais de Buckingham. Le faux-ami «Law» est mal traduit et devient donc «la loi». Le problème majeur que rencontre un élève qui utilise un traducteur automatique de façon récurrente vient du fait que la présence d’un outil qui lui donne l’impression que le sens du texte est immédiatement traduisible et parfaitement fidèle au sens du texte initial rend la démarche d’apprentissage caduque. Un élève qui est persuadé qu’il peut se contenter d’un sens global et approximatif pour comprendre le message d’un texte ne sera jamais en mesure de mettre en œuvre des stratégies de lecture efficaces ; il prendra un mot pour un autre en se disant que puisque le traducteur automatique le traduit comme ça, c’est que ça doit être vrai, et ne se posera même pas la question du sens du texte original. Si le traducteur dit que le père d’Elizabeth était «le roi couronné de l’Angleterre», pourquoi l’élève irait-il s’attarder sur le sens réel de la séquence «when Elizabeth was 10, her father was crowned»? Tout ce que l’élève perçoit, c’est que l’obstacle entre lui et le sens du texte a été gommé «comme par magie», peu importe si ce sens est dévoyé, l’élève a devant lui un message suffisamment convaincant qu’il a envie de prendre pour argent comptant puisque cela lui épargne l’effort intellectuel de retour sur le texte d’origine. Ainsi si la traduction automatique permet de saisir le sujet général d’un texte pour qui n’est pas regardant sur les liens de causalité et autres éléments textuels qui permettent de déterminer précisément de quoi il retourne, celle ci ne permet pas à un élève de se frotter à un quelconque moment à une démarche de compréhension du texte ; la traduction «immédiate» ayant supprimé de facto le besoin de déchiffrer, d’inférer du sens et de construire une compréhension fine du texte de départ. Après avoir comparé avec les élèves la «vraie» et la «fausse» traduction, j’ai demandé aux élèves de formuler quels étaient selon eux les risques d’une utilisation abusive de la traduction automatique. Voici ce qu’il en est sorti : Le premier risque consiste à trop faire confiance au traducteur, à s’y fier à tort et donc à risquer de se retrouver avec des informations fausses, de mauvaises traductions, des défauts dans la traduction. Le deuxième risque est celui de ne pas bien apprendre (ou de ne rien apprendre du tout) parce qu’on se sert de l’outil de traduction pour ne pas faire d’effort intellectuel. Il est compréhensible que les élèves soient séduits par un outil qui demande de moins en moins d’efforts pour arriver à des résultats toujours plus proches de ce qui est attendu. Il n’est évidemment pas souhaitable et même regrettable que certains élèves voient dans le traducteur automatique un moyen de ne pas fournir d’efforts pour s’approprier une langue. C’est pourquoi il est essentiel d’accompagner les élèves dans leurs usages de cet outil, que ce soit en leur faisant savoir que c’est un outil qui est utile jusqu’à un certain point mais qu’il ne peut absolument pas se substituer au travail sur la langue, ou en leur montrant que c’est un outil valable à partir du moment où il est utilisé à bon escient et que la traduction de phrases ou d’expression ponctuelle n’a de raison d’être que si la ou les phrase(s) traduite(s) s’insère(nt) dans un travail de compréhension fine des texte lus, dits, ou écrits. Article de Bruno Franceschi professeur d’anglais en collège Grâce à un partenariat avec Bing Translator, le réseau social propose désormais d'afficher la traduction des tweets. Mode d'emploi. C'est officiel depuis cette nuit : propose maintenant de traduire votre fil d'actu grâce à un partenariat avec Bing Translator de Microsoft. Pour accéder à cette nouvelle fonctionnalité, rien de plus simple. Il suffit de se rendre dans les paramètres de son compte à la section « Traduisez les Tweets » et de cocher la case « Afficher la Traduction des Tweets ». Nous avons constaté à ce sujet, que la case était activée par défaut sur tous les comptes. Pas de panique, ne va pas vous imposer de lire directement la traduction en français de tous les tweets en anglais que vous consultez. Si vous souhaitez y accéder, il faut d'abord cliquez sur la petite icône qui représente un Globe en haut à droite du texte. Vous affichez ensuite la traduction de Bing Translator en-dessous du texte original. Cette fonctionnalité est disponible en 40 langues sous iOS, Android et sur ordinateur. précise cependant qu'il s'agit là d'une traduction automatique forcément moins aboutie que celle pourrait réaliser un professionnel. D'ailleurs, le réseau social annonce « offrir une traduction automatique des Tweets entre plus de 40 paires de langues. » C'est à se demander si lui-même n'a pas utilisé Bing Translator pour sa page d'explications en français ... A lire aussi : teste la fonction "En votre absence" sous iOS 22/01/2015 Amélie Charnay 0 LES BONS PLANS 01net.com Réductions Amazon Découvrez tous les codes promo Amazon Réductions Webdistrib Découvrez tous les codes promo Webdistrib Réductions Pixmania Découvrez tous les codes promo Pixmania Réductions PriceMinister Découvrez tous les codes promo PriceMinister Réductions Grosbill Découvrez tous les codes promo Grosbill Voir tous les bons plans Grégory Rozières Le HuffPost TECHNO - Depuis quelques années, les indispensables à emmener en vacances à l'étranger ont bien changé. La carte a été remplacée par Google Map et le dictionnaire par une application de traduction. La start-up Waverly Labs veut aller encore plus loin avec la traduction en temps réel, rapporte Gizmag. Le système, intitulé Pilot, est assez simple: deux oreillettes reliées en bluetooth à un téléphone. L'une pour vous, l'autre pour votre interlocuteur. Il suffit ensuite de parler, et théoriquement, l'autre personne entend une version traduite à la volée. A terme, Waverly Labs aimerait que l'oreillette capte le son environnant, mais pour l'instant, les deux personnes se parlant ont besoin d'avoir une oreillette. Pas très pratique quand vous voulez juste demander votre chemin. Pour draguer, cela peut mieux marcher. Le fondateur affirme justement avoir eu l'idée de ces oreillettes après être tombé amoureux d'une Française. Dans la vidéo ci-dessous, on comprend tout de suite l'intérêt d'un tel outil (à condition qu'il n'y ait pas d'erreur de traduction). IFRAME: https://www.youtube.com/embed/ojzCYgli1t0 Pilot sera disponible en pré-commande le 25 mai à partir de 129 dollars. Le prix en magasin sera lui compris entre 249 et 299 dollars. Les livraisons devraient commencer à l'automne prochain pour les premiers acheteurs, mais pourraient prendre du temps. Pour le moment, les oreillettes ne traduiront que les langues latines et romanes comme l'anglais, le français, l'italien, l'espagnol. De plus, les créateurs précisent qu'un fort accent peut perturber le service. Ce que propose Pilot n'est pas très éloigné des applications de traduction de Google ou Skype, qui traduisent les phrases entendues et auxquelles on peut demander de dicter une phrase traduite. Ce que Pilot apporterait, si la société tient ses promesses, c'est l'intégration de toutes ces fonctionnalités en un seul objet qui permettrait d'oublier la barrière de la langue. traduction automatique La société va dévoiler son application de traduction (qui fonctionne hors-ligne) cet été. Ce sera l'occasion de voir si celle-ci est véritablement efficace. Restera ensuite à savoir si l'oreillette en elle-même est confortable et pratique. IBM se lance dans la traduction automatique collaborative Par le 04.09.2009 à 13h25, mis à jour le 04.09.2009 à 13h25 Les défauts actuels des logiciels de traduction automatique peuvent être compensés par les utilisateurs eux-mêmes. réagir A la rédaction de l'hebdomadaire Courrier International: la machine n'a pas (encore?) remplacé l'humain pour la traduction. A la rédaction de l'hebdomadaire Courrier International: la machine n'a pas (encore?) remplacé l'humain pour la traduction. Rillon/Neco/Sipa Commenter La participation et la collaboration des internautes ou des utilisateurs est à la mode. Le succès de lʼencyclopédie en ligne Wikipedia en témoigne. Mais des géants comme Google, Amazon, Apple ou Procter&Gamble nʼhésitent pas à accueillir aussi les contributions dʼacteurs extérieurs. Une nouvelle tendance baptisée "Wikinomics" par deux auteurs, Don Tapscott et Anthony Williams, dans un livre éponyme traduit en français en 2007. Cʼest maintenant au tour du géant de lʼinformatique IBM de rejoindre le mouvement dans le domaine de la traduction automatique. A la 12ème conférence "Machine Translation" qui sʼest tenue à Ottawa (Canada) du 26 au 30 août dernier, IBM a présenté un système original, N-Fluent. Comme beaucoup dʼautres, cette application permet de traduire une page web visitée ou nʼimporte quel document. Intégré aux messageries électroniques ou instantanées (celles dʼIBM seulement...), N-Fluent permet de passer dʼune langue à lʼautre en un rien de temps. Des smartphones peuvent aussi être équipés. Onze langues, dont le français, sont disponibles mais seulement appariées à lʼanglais; le passage du chinois à lʼespagnol par exemple nʼest pas possible directement. Outre que le logiciel bénéficie de plus de vingt ans de recherches reconnues dʼIBM sur le sujet, il est innovant dans la mesure où lʼutilisateur peut interagir et corriger les propositions du programme. Ainsi, à la manière de Wikipedia, la base de données sʼenrichit et sʼaméliore. Jusquʼà un certain point en effet, la qualité dʼune traduction augmente mécaniquement avec le nombre de mots disponibles. Google avait déjà lancé au printemps une version provisoire dʼun tel système (translator toolkit) mais beaucoup moins ambitieuse. Lʼouverture a aussi ses limites. La version actuelle nʼa été amendée que par des employés dʼIBM. Mais lʼentreprise étant mondiale, plusieurs centaines de participants ont joué le rôle de correcteurs. Un hispanisant a même comptabilisé plus de 110.000 mots à son actif. Le meilleur francophone a modifié 32.000 mots (pour un total de 190.000 dans la base de données actuelle). "Nous avons constaté un effet bien connu: environ 40% des contributions proviennent de seulement 1% des contributeurs", résume Salim Roukos, lʼun des responsables du projet, devant des journalistes français (dont Sciences et Avenir) invités dans lʼun des centres de recherche dʼIBM près de New York. Afin de récompenser les plus assidus, des aides financières ont été accordées à des ONG choisies par les lauréats. Cʼest aussi lʼaboutissement dʼune autre initiative collaborative et ouverte dʼIBM: le projet est en effet né dʼune "session innovante" en 2006, sorte de remue-méninge géant, lors de laquelle tous les employés pouvaient proposer des idées de développement pour leur entreprise. IBM ne vise pour lʼinstant pas le marché du grand public mais celui des entreprises. Ces dernières, en améliorant elles-mêmes lʼoutil, le rendent plus efficace pour leurs affaires car il se trouve de facto plus adapté à leur propre contexte commercial ou technique. David Larousserie Sciences-et-Avenir.com 04/09/09 Traduction automatique Rêve ou fantasme ? Par Viviane Thivent le 26 novembre 2015 - Mis à jour le 04 août 2016 Ni l’anglais ni l’esperanto ne se sont finalement imposés comme langues universelles. Pour nous comprendre les uns les autres, il nous reste une solution vieille comme le monde : la traduction. Mais attention, la technologie s’en mêle et son objectif est très simple : l’automatisation. Le 23 juin 2015, dans un article mis en ligne sur la plate-forme ArXiv.org, deux chercheurs de Google, Oriol Vinyals et Quoc V. Le, présentaient un modèle de « conversation neural », comprendre par là un logiciel capable de tchatter avec un humain et de lui parler de philosophie et de moralité. Un type très développé d’intelligence artificielle ? Pas vraiment. Pour répondre, ce logiciel ne réfléchit pas. Il se contente de puiser dans la masse colossale des données accumulées par Google. Les textes de nos sites web, mais aussi ceux de nos conversations et de nos commentaires sont savamment triés, catégorisés et pondérés par leur fréquence, de manière à faire émerger la pensée dominante du web et à la régurgiter aux interlocuteurs. L’effet final est bluffant. « Mais ce logiciel ne peut rien créer, explique François Yvon, directeur du Laboratoire pour la mécanique et les sciences de l’ingénieur (Limsi), à Orsay. Il ne peut produire aucun contenu original. » Et pour cause : ce logiciel – un « chatbot » – est moins le fruit des recherches en intelligence artificielle que celui des travaux en traduction automatique des textes. Un champ de recherche ancien, né sous l’impulsion du mathématicien Warren Weaver au lendemain de la Seconde Guerre mondiale. A l’époque, il s’agissait de faciliter l’espionnage de l’U par les Etats-Unis en automatisant les processus de traduction du russe vers l’anglais. Le 7 janvier 1954, au gré d’une collaboration entre IBM et l’université de Georgetown, à Washington, des chercheurs sont parvenus à traduire de façon automatique quelque 60 phrases russes dans la langue de Shakespeare. Les possibilités restaient cependant très limitées puisque, pour réaliser sa tâche, l’ordinateur n’intégrait que six règles grammaticales et un lexique de 180 mots. Traduction automatique, rêve ou fantasme ? Des débuts timides, mais prometteurs Les chercheurs, optimistes, estimaient de trois à cinq le nombre d’années de recherches nécessaires pour aboutir à un traducteur automatique performant. D’où un effort financier massif de la part du gouvernement américain. Un soutien sur plus de dix ans, finalement, qui cessera en 1966, après l’avis plutôt mitigé rendu par l’Alpac (Automatic Language Processing Advisory Committee), un comité d’experts chargé de juger de l’avancée des travaux financés et qui avait tout bonnement décidé que cette recherche n’aboutirait jamais. « Pour les scientifiques, le problème s’est révélé bien plus compliqué à résoudre que prévu, et ce au moins à trois niveaux », souligne le directeur du Limsi. D’abord, il fallait parvenir à décomposer chacune des langues, puis à traduire correctement chaque mot. Par exemple, les mots take ou car, en anglais, peuvent revêtir une multitude de sens différents selon le contexte. Enfin, il fallait arriver à reconstituer la phrase dans la nouvelle langue, alors que les structures des deux langues sont parfois complètement différentes. « Pendant des décennies, des recherches ont piétiné parce que les chercheurs tentaient de répondre à ces problèmes complexes en utilisant des dictionnaires et des règles grammaticales », explique François Yvon. Il a fallu attendre la fin des années 80 pour assister à un tournant. A l’époque, dans les laboratoires d’IBM, des chercheurs ont réussi à créer un système de reconnaissance vocale capable de transcrire le langage parlé en texte écrit, en utilisant une approche statistique basée sur l’analyse de bases de données linguistiques. Au lieu d’écrire très exactement ce que la machine perçoit, le logiciel écrit ce qu’il a probablement entendu. Une nuance qui, dans les années qui suivent, relance les recherches en traduction automatique. L’idée, dès lors, est de traduire en utilisant non plus des règles, mais des bases de données réunissant des textes traduits dans les deux langues concernées. Dans les années 2000, Franz Joseph Och convainc Google du bien-fondé de cette approche dite statistique. « Beaucoup de phrases utilisées sur Internet sont des clichés, des poncifs, qu’un logiciel peut reconnaître afin de prédire la suite, ce qui aide pour la traduction », poursuit François Yvon. Au début, Google a utilisé cette traduction simplement pour indexer les sites. Ce mode de traduction produisait un charabia incompréhensible destiné seulement aux machines. Pour imaginer proposer un service de traduction aux humains, il fallait aller beaucoup plus loin. Ce que Google a fait. « Google manipule des centaines de langues au quotidien et possède des bases de données colossales », rappelle François Yvon. De quoi faire progresser des logiciels qui, aujourd’hui, mêlent statistiques et règles. Pour autant, tous les problèmes n’ont pas été résolus, loin de là. D’abord, certaines expressions, rares ou peu fréquentes dans un contexte écrit, sont presque toujours écartées. Par exemple, l’expression « prendre à droite », très courante à l’oral dans le contexte de la circulation routière, est incompréhensible pour un traducteur. De plus, Google puise dans l’immense corpus de textes anglais traduits en plusieurs langues comme principale base de données. Résultat, pour traduire du français en italien, le moteur de recherche passe d’abord par l’anglais comme langue pivot, puis de l’anglais à l’italien, entraînant de nombreuses bizarreries, voire des contresens. Une tâche ardue, même pour Google « La langue n’est pas un ensemble continu, commente François Yvon. Il ne s’agit pas d’un tout. Elle est fragmentée, composée d’une multitude de registres, de niveaux de langue, entre lesquels nous passons mentalement. » Le verbe juger n’aura ainsi pas le même sens dans un contexte quotidien que dans le monde juridique. « Pour un logiciel, ce découpage est difficile à percevoir », poursuit le directeur du Limsi. De plus, pour utiliser les méthodes statistiques, il faut posséder un grand nombre de textes très exactement traduits dans les langues concernées. Or, la plupart de ces textes sont juridiques, techniques, médicaux ou littéraires et ont recours à des registres très particuliers. Cette matière est déjà difficile à trouver quand il s’agit de langues usuelles (anglais, français, espagnol), mais elle devient rare, voire inexistante, dès qu’on s’intéresse à des langues minoritaires et qu’on essaie, par exemple, de passer du turc au coréen. La tâche est ardue même pour Google. C’est pourquoi le géant du web n’hésite pas à faire appel à la communauté des internautes pour étoffer ces données avec Google Translate Community. En outre, un comité ISO est en train de définir des règles universelles pour décrire toutes les langues du monde. De quoi favoriser le traitement des données. Notons que l’affaire se complique encore lorsqu’on a recours aux traducteurs vocaux, censés effectuer une traduction simultanée, car les registres de langue diffèrent entre l’écrit et l’oral. De plus, les paroles ne sont pas toujours « audibles » par l’ordinateur. Pour autant, quelques initiatives fonctionnent peu ou prou, comme Skype Translator qui, en mars 2014, a traduit en temps réel les propos de deux internautes, l’un hispanophone, l’autre anglophone. Certaines plates-formes Internet comme Voxalead et Quaero sont, de plus, capables d’effectuer l’indexation de vidéos en fonction de leur contenu audio. Si la traduction automatique n’est pas pour demain, les progrès dans ce domaine sont déjà bien réels. 5 questions à Hermann Ney Directeur du département de science informatique de la RWTH Aachen University (université technique de Rhénanie‑du‑Nord‑Westphalie). Hermann Ney, Directeur du département de science informatique de la RWTH Aachen University (université technique de Rhénanie‑du‑Nord‑Westphalie). The Good Life : Obtiendra-t-on un jour des logiciels de traduction parfaits ? Hermann Ney : Cela me semble difficile, en particulier pour des traductions dans tous les domaines ou dans tous les genres. Même pour l’homme, cette tâche est très complexe. Selon moi, ces logiciels auront toujours des lacunes. Y compris dans les langues dominantes. TGL : Quelles sont les stratégies actuelles pour améliorer les modèles de traduction ? H. N. : On peut, d’une part, améliorer les méthodes mathématiques, via des études sur les statistiques, l’apprentissage ou les réseaux neuronaux et, d’autre part, introduire de nouveaux modèles, pour gérer certaines particularités, linguistiques notamment. TGL : Vous est‑il arrivé, au cours de votre carrière, d’être surpris par certains résultats ? H. N. : J’ai été surpris de voir les méthodes statistiques devenir dominantes si vite. En 1996, nous étions trois dans le monde à utiliser cette approche. Dix ans plus tard, elle avait remplacé toutes les autres. TGL : Quel est l’impact économique potentiel de cette recherche ? H. N. : L’impact direct (vente de logiciels ou de traducteurs) est faible. Mais les conséquences indirectes pourraient être bien plus importantes, notamment parce que ces logiciels permettraient à une multitude d’entreprises d’avoir recours à une traduction jusque‑là trop onéreuse et de conquérir de nouveaux marchés. TGL : Google a-t-il des concurrents en matière de traduction ? H. N. : Google a accès à toutes les données virtuelles du monde, mais n’a inventé aucune méthode de traduction. Des équipes extérieures l’ont fait. Des groupes de recherche dans le monde académique ou industriel ont un niveau équivalent à celui de Google, comme IBM, BBN et Microsoft ou les universités ISI Los Angeles ou Carnegie Mellon University (CMU) Pittsburgh, aux Etats‑Unis. En Europe, il y a le Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (Limsi), à Paris, ou la Fondazione Bruno Kessler (FBK), en Italie. Ces équipes n’ont pas accès aux données de Google, mais elles sont compétitives en termes de méthodologie et de recherche. Traduction automatique: au-delà du phrase par phrase 03/04/2017 Image de la page En travaillant phrase par phrase, les algorithmes de traduction omettent une grande partie du contexte et font des erreurs. Un projet soutenu par le FNS a développé de nouvelles techniques afin qu'ils considèrent mieux l'ensemble du texte. Contenu de la page Des scientifiques financés par le Fonds national suisse (FNS) ont ouvert une nouvelle voie pour améliorer les outils de traduction automatique, comme le célèbre Google Translate, qui traite quotidiennement quelque 100 milliards de mots. Les informaticiens et linguistes ont été les premiers à montrer qu'il était possible d'améliorer les systèmes de traduction en forçant l'intelligence artificielle à dépasser le simple "phrase à phrase", et à croiser des informations contenues ailleurs dans le texte, une démarche qui fait aujourd'hui l'objet de travaux dans le monde entier. Les scientifiques dévoilent leurs derniers résultats () le 3 avril 2017 lors d'une conférence de l'Association for Computational Linguistics à Valence (Espagne). Traduire sans comprendre "Les systèmes de traduction automatique ne comprennent pas vraiment le sens des textes, explique Andrei Popescu-Belis, responsable du projet ainsi que du Natural Language Processing Group à l'Institut de recherche Idiap, situé à Martigny (VS). Ils opèrent un rendu d'une langue vers une autre, en suivant des règles statistiques. Et surtout, ils travaillent phrase par phrase. Or une phrase isolée ne comporte souvent pas assez d'informations sur le contexte pour pouvoir être traduite correctement. Les systèmes devraient pouvoir prendre en compte des données situées ailleurs dans le texte." Pour démontrer leur approche, les chercheurs se sont notamment penchés sur la question des pronoms – des mots tels que "lui" ou "celle-ci", qui se substituent à d'autres éléments du texte. Souvent, ces derniers se trouvent hors de la phrase à traduire, d'où le nombre important d'erreurs commises par les systèmes automatiques. Andrei Popescu-Belis donne un exemple simple, mais qui trompe aisément les systèmes les plus sophistiqués: "Ma tante a acheté une excellente voiture. Elle n'est pas très jolie." En anglais, Google Translate la traduit en "My aunt bought an excellent car. But she is not very pretty." L'outil a traduit "elle" par "she". Comme ce pronom est réservé aux personnes de genre féminin, le lecteur anglophone lira que c'est "ma tante" qui "n'est pas très jolie". Le piège de la statistique Le système est induit en erreur, car il sait que le qualificatif "pas très jolie" s'applique plus souvent à des personnes qu'à des objets. Si on le substitue par "rouillée" ou "en panne", plus fréquemment appliqués aux objets, le pronom aura plus de chances d'être correctement traduit par "it". Pour obtenir un résultat pertinent, le traducteur automatique aurait dû considérer les informations contenues dans la première phrase. C'est dans les grandes lignes ce que fait le système mis au point par les chercheurs de l'Idiap en collaboration avec les Départements de linguistique des universités de Genève et d'Utrecht (Pays-Bas) ainsi que l'Institut de linguistique computationnelle de l'Université de Zurich. Les chercheurs utilisent essentiellement des outils d'apprentissage automatique (ou "machine learning"). A chaque essai, ils introduisent ou retirent des centaines de paramètres, que les algorithmes ajustent, jusqu'à constater une amélioration. "Dans les grandes lignes, nous indiquons au système le nombre de phrases précédentes qu'il doit analyser, comment il doit les analyser, puis nous procédons à des tests en conditions réelles." Google recrute au sein du projet Les résultats sont encourageants, selon Andrei Popescu-Belis. Dans des couples de langues comme français-anglais ou espagnol-anglais, les pronoms induisent en erreur les traducteurs automatiques dans environ la moitié des cas. "En forçant le système à considérer des informations externes à la phrase, nous sommes parvenus à réduire le taux d'erreur à 30%", note le chercheur. L'enjeu de ces travaux va bien au-delà de la seule question des pronoms: la cohérence des temps verbaux, le choix de la terminologie ou encore les niveaux de politesse constituent autant de problématiques qui dépendent largement du texte dans son ensemble, plutôt que d'une phrase prise isolément. Les techniques développées par Andrei Popescu-Belis et ses collègues ne sont pas encore mûres pour des outils grand public, mais elles intéressent les acteurs du domaine. "Ce sont nos travaux qui ont fait connaître la nécessité de dépasser la traduction automatique phrase à phrase. Mais surtout, trois jeunes chercheurs impliqués dans le projet travaillent maintenant dans ce domaine chez Google Zurich. Cela montre bien l'intérêt suscité par notre approche." Traduction automatique : faire tomber les barrières de la langue Plus besoin de traducteur diplômé à côté de soi, un simple smartphone suffit pour se débrouiller face à des interlocuteurs étrangers ou devant un texte sybillin. Même si l'exactitude n'est pas toujours au rendez-vous, la traduction automatique révolutionne la façon de communiquer. Par La Rédaction - 9 janvier 2015 Avec ses sites internet – Babelfish, Linguee, Reverso parmi les plus connus, en plus de Google Translate ou Bing Translator – et ses applications mobiles à gogo, la traduction automatique est aujourd’hui quasiment un standard technologique. Mais au final, une seule question intéresse les utilisateurs : peut-on faire entièrement confiance à ces solutions ? De l’avis général, l’exactitude de la traduction automatique atteint les 75 à 80 %. Ce qui suffit souvent pour saisir le sens général d’un texte, mais n’est guère recommandé pour la traduction des termes d’un contrat portant sur des milliards de dollars. Il suffit d’ailleurs de prendre une phrase au hasard pour avoir une idée des approximations : “longtemps, je me suis couché de bonne heure”, célèbre et simple en apparence. Pour Reverso, cela donne “for a long time I am early lying” et “long time I went to bed early” pour Google Translate. Faut-il les en blâmer pour autant ? Depuis plus d’un siècle, les traducteurs de Proust ne se sont pas encore accordés sur ce qu’il convenait d’écrire… Est-ce “went to bed early”, “used to go to bed early” ou “would go to bed early” ? La chanteuse Malinda Kathleen Reese s’est d’ailleurs amusée de ces errances à travers sa série de vidéos à regarder sur YouTube “Google Translate Sings”. À l’aide du site de Google, l’artiste a traduit de langue en langue les textes de chansons connues telles Bohemian Rhapsody de Queen ou Let it Go, la rengaine du dernier Disney la Reine des Neiges. De l’anglais au chinois, puis du chinois au français, puis du français au tamoul et ainsi de suite pour revenir en anglais à la fin, le tout mis en musique. De fil en aiguille, les erreurs s’accumulent. Au final, le fou rire est garanti ! Techno Les chercheurs ont commencé à plancher sur la traduction automatique à partir des années 50, en s’appuyant notamment sur les expériences faites pendant la Seconde Guerre mondiale pour casser les codes ennemis. Aujourd’hui, les solutions fourmillent, entre les sites internet et les applications mobiles utiles aux voyageurs. Vous aimez cet article ? Recevez notre newsletter ____________________ ____________________ ____________________ ____________________ S'inscrire Leave this field empty if you're human: ____________________ Cet humour potache met en lumière un fait : la traduction automatique n’en est encore qu’à ses balbutiements. D’ailleurs, Google ne se voile pas la face quant à l’absolue pertinence de sa solution. D’abord parce que, pour trouver des segments de phrases, ses systèmes vont fouiller au sein d’un corpus de textes qui, certes, ont le mérite d’exister en plusieurs langues, mais sont souvent assez rébarbatifs à l’image des documents offciels de l’Union européenne. “Nos systèmes de traduction ont dans l’ensemble été meilleurs pour donner du sens aux documents officiels ou business que pour aider les gens dans leur communication de tous les jours”, constatait en début d’année Aaron Babst, alors directeur du programme Google Translate avant de passer en septembre chez . Mais, c’est bien connu, il n’est pas nécessaire d’espérer pour entreprendre, ni de réussir pour persévérer. Aujourd’hui, les voyageurs d’affaires ont à leur disposition une multitude d’appli mobiles qui s’imposent comme autant de dictionnaires à embarquer au creux de la poche. Alors bien sûr, le résultat n’est pas toujours optimal, mais c’est tout de même bien plus pratique que d’avoir à se balader avec les collections réunies des Larousse, Harraps et Robert & Collins en permanence sous le bras… Parmi les plus utilisées, iTranslate se vante d’être la plus populaire avec 55 millions de téléchargements depuis ses débuts, tandis que Google Translate se targue de traduire pas loin de 100 milliards de mots par jour. Un chiffre faramineux, surtout si on le compare aux capacités d’un traducteur professionnel qui, au quotidien, peine à atteindre les 4 000 mots. Conversations sans frontières Conversations sans frontières Après l’écrit, la traduction automatique s’attaque désormais aux échanges vocaux. Lancé cette année, Skype Translator réussit un vrai tour de force, celui de “résoudre le décalage entre la façon dont les gens parlent et écrivent. C’est un des principaux sujets sur lesquels mes équipes ont travaillé l’an dernier”, explique Arul Menezes, en charge chez Microsoft de la recherche autour de la traduction automatique sur le blog research.microsoft.com. Grâce aux nouvelles technologies, les barrières de la langue tremblent et chancellent. Porte-voix d’un monde globalisé, les grands réseaux sociaux comme ou se sont eux aussi lancés dans la traduction instantanée des messages échangés. En parallèle, des applications innovantes sont apparues pour secourir les voyageurs “lost in translation” comme WordLens. Sans besoin même de connexion internet, celle-ci permet, simplement en pointant la caméra d’un smartphone sur un menu ou vers un panneau d’indication d’en recevoir immédiatement la traduction dans sa langue. Il n’est d’ailleurs pas étonnant que Google ait fait l’an dernier l’acquisition du développeur de cette application, Quest Visual, pour enrichir son offre de traduction mobile. Mieux, alors que les solutions se sont longtemps concentrées sur l’écrit, la traduction orale commence depuis peu à faire son apparition. Ainsi, iTranslate a enrichi son offre d’une déclinaison Voice qui permet à deux personnes ayant installé l’application sur leur smartphone de converser chacun dans leur langue, l’application se chargeant de faire l’intermédiaire. De son côté, Skype a lancé en fin d’année dernière le plug-in Translator qui permet de traduire les échanges simultanément. “La traduction vocale nous a paru une évolution naturelle du travail que nous avons entrepris sur la traduction écrite”, explique Chris Wendt, directeur de ce programme de traduction automatique. Satya Nadella, le PDG de Microsoft, la maison mère de Skype, en est convaincu, un outil comme celui-là pourrait “changer la vie des gens et des entreprises”. Panorama des applications de traduction les plus pratiques Application Google Translate La plus connue avec 90 langues, dont 38 avec reconnaissance vocale, et une fonction caméra (gratuit). Application Waygo Une appli pour comprendre les inscriptions en caractères chinois, japonais et coréens (gratuit). Application Istone Travel Offre la traduction de 300 expressions familières dans une douzaine de langues (gratuit). Application Triplingo 2000 phrases traduites en 13 langues, Intègrant les expressions familières, voire argotiques (gratuit. Application Ihandy Translator Un interface très “user friendly” et 52 langues traduites. Gratuit, avec une version pro à 2,99 $. Application Itranslate L’autre leader de la traduction automatique avec ses 90 langues et son option voix (gratuit). Application Itranslate Voice La traduction simultanée par smartphone interposé en 42 langues. (6,99 $). Application SMS Translator Permet de traduire des échanges de SMS en 16 langues (gratuit). Application Sayhi Translate Propose 100 langues disponibles avec, aussi, la traduction de dialectes locaux. (4,99 $). Application Reverso Traduction instantanée en 10 langues avec des exemples d’utilisation en contexte (gratuit). Les nouvelles technologies vont-elles soustraire les hommes de cette punition divine, la confusion des langues, vieille comme la Genèse ? Le mythe est archi connu. À trop vouloir s’élever d’eux-mêmes vers le ciel en construisant la tour de Babel, Dieu flanqua à terre cette oeuvre autant humaine qu’orgueilleuse et les condamna à traîner leur peine au milieu de paroles inconnues. Un mythe qui a nourri bien des fantasmes : de la mystique Hildegarde de Bingen au Moyen-Age et sa lingua ignota jusqu’au docteur Zamenhof et son espéranto à la fin du XIXe siècle, philosophes et humanistes se sont creusés la tête pour construire des langues artificielles qui pourraient être comprises de tous. On compte ainsi près de 900 initiatives rarement couronnées de succès, sinon d’estime. L’approche technologique du problème est, elle, totalement inverse. Puisque la diversité linguistique est un fait, faisons contre mauvaise fortune bon coeur et donnons aux gens les moyens de communiquer entre eux par-delà leur différence. De manière schématique, la traduction automatique s’appuie sur des modèles statistiques du langage, les machines allant grâce à ceux-ci fouiller dans les pages pour trouver des séquences de phrase dont elles pourraient trouver l’équivalent dans une autre langue. Techno Maudites erreurs de traduction… Les solutions automatisées n’en ont pas le monopole. L’histoire fourmille d’exemples, drolatiques pour certains comme lors du voyage de Jimmy Carter en Pologne où son traducteur fit part de son “désir charnel pour les Polonais” au lieu de “son envie de mieux comprendre leurs désirs”… Plus tragique, la réponse du premier ministre japonais, “mokusatsu”, à l’ultimatum des Alliés. Pour certains, ce petit mot ambigu voulait dire qu’il s’abstenait de tout commentaire. Mais même les agences de presse niponnes l’ont interprété comme une fin de non-recevoir. Dix jours plus tard, c’était Hiroshima. De cette aventure technologique de longue haleine qui a débuté dans les années 50, menée par IBM et Systran notamment, on commence réellement à en récolter les fruits. Pour illustrer la difficulté de la tâche, les équipes de recherche de Microsoft travaillent sur le sujet depuis plus d’une décennie, avec comme premier résultat le lancement de Bing Translator puis, plus récemment, de Skype Translator. Avec la traduction vocale, les chercheurs s’attaquent d’ailleurs à une autre difficulté. Car si, pour la langue écrite, les systèmes peuvent s’appuyer sur des textes, traduire le langage parlé est bien plus difficile. Il faut notamment tenir compte de l’intonation, des pauses qui rendent difficile la compréhension par une machine d’où commencent et où s’arrêtent les phrases. Sans parler des formulations propres à l’oral ! Du coup, pour enrichir le vocabulaire des réseaux de neurones artificiels, les chercheurs se sont notamment appuyés sur les messages publiés sur , plus proches du langage de tous les jours. Pour aller plus loin, Google fait aujourd’hui appel à… l’humain. Le géant technologique a récemment lancé un programme collaboratif pour améliorer l’algorithme de son service Translate, les utilisateurs étant invités er de meilleures traductions pour des phrases usuelles. Au final, les utilisateurs portent en eux une partie de la résolution du problème, car, à l’heure du big data, plus les solutions seront utilisées, plus les outils affineront leurs traductions. Techno Conversations sans frontières Application Application Application Application Application Application Application Application Application Application Techno A lire aussi : Traduction automatique : Linguee passe en mode DeepL Traduction : DeepL se décline en version Pro À lire dans le dossier Traduction automatique : faire tomber les barrières de la langue Traduction automatique : faire tomber les barrières de la langue Témoignage : Ana Escobedo-Boulard, les langues du monde Technologie en bref 7 J’ai été récemment interrogé par le journal L’informaticien au sujet des différentes solutions de traduction qui s’offrent aux entreprises et, en particulier, des questions de traduction automatique (voir l’article). Au cours de nos entretiens, Emilien Ercolani, le journaliste, m’a demandé de faire évaluer la traduction d’une phrase tirée d’un de ses précédents articles, et qu’il avait soumise à plusieurs moteurs de traduction automatique (Google, Bing, Power Translator, Systran et Babylon). Dans un premier temps, nous avons demandé à une traductrice (Andrea) de traduire la phrase source sans mentionner quoi que ce soit d’autre : nous ne lui avons donc pas fourni les traductions automatiques. C’est la cible 1. Ensuite nous avons demandé à trois autres traducteurs (Angie, Mark et Marie) de commenter les traductions automatiques. Nous ne leur avons pas dit qu’il s’agissait de traductions automatiques, mais que nous voulions choisir entre plusieurs formulations. Mark a reconnu de la traduction automatique, les autres n’ont pas commenté (ils ont pu reconnaître de la traduction automatique sans nous en parler). Enfin, nous avons demandé à Mark, qui avait corrigé auparavant les traductions automatiques, de faire une proposition de traduction : c’est la cible 2 (voir les résultats complets de notre test). Les résultats sont éloquents : il suffit de comparer l’une des deux phrases cibles rédigées par des traducteurs humains à n’importe laquelle des phrases cibles construites par un moteur. Mais, pour poursuivre l’analyse, je me suis amusé à compter les erreurs relevées par les traducteurs humains dans les formulations automatiques. Pour chaque erreur, je comptais deux points, et un point pour les remarques stylistiques (du type « l’utilisation de indeed est un peu démodée » : ce n’est pas une erreur à proprement parler, mais une remarque stylistique). Puis, j’ai divisé le nombre de mots de la phrase source par le nombre de points obtenus, ce qui m’a donné un pourcentage : par exemple, la formulation de Google comporte 5 erreurs et 1 faute de style, ce qui me donne un total de 11 points. Ce total, divisé par 45 (le nombre de mots de la phrase source), donne un pourcentage d’erreurs de 24%. Si je retire 24% de 100%, j’obtiens un score qualité de 76%. Moteur Erreurs Fautes de style Points Score Qualité Google 5 1 11 76% Bing 5 1 11 76% Systran 6 0 12 74% Reverso 7 0 14 69% Power Translator 8 0 16 65% Babylon 8 1 17 63% Ce score de 76%, que Google partage avec Bing, est très mauvais ! Pour donner une idée de ce que représente un tel pourcentage, cela revient à dire que dans un texte de 5 lignes (50 mots), un lecteur serait arrêté par une erreur 5 fois par ligne (25 erreurs) ! Personne n’accepterait ça dans un journal. A titre de comparaison, les scores qualités considérés comme acceptables dans le monde de la traduction professionnelle sont compris entre 95% et 100%. Microsoft, par exemple, refuse tout contrôle qualité dont le score est inférieur à 99%. Comme on peut le voir ici, sur une seule phrase, on est loin du compte avec la traduction automatique ! Il est d’ailleurs très probable que les résultats seraient différents si la phrase source avait été modifiée avant d’être soumise aux moteurs. C’est que soulignait déjà l’expérience dont je rendais compte dans Le site de traduction de Microsoft comparé à Google et PROMT. Dans tous les cas, et même si elle est limitée à une seule phrase, cette petite expérience-ci confirme un point très important : la traduction automatique ne permet pas de délivrer des textes directement publiables. Et, les indéniables améliorations des moteurs renforcent encore le besoin de bien connaître la langue cible pour évaluer correctement le travail réalisé : peu de Français savent avec certitude quand on peut se passer de l’article « the » dans une phrase, pour reprendre une des erreurs qui revient souvent dans l’expérience. En fait, il s’agit d’un excellent outil de traduction… pour traducteurs ! Car il va beaucoup plus vite de relire (on dit « post-éditer » dans le jargon de la TA) que de traduire, et un traducteur professionnel peut multiplier par cinq à dix sa productivité quotidienne en utilisant des moteurs de traduction. Mais c’est une illusion de croire que l’on peut diffuser des textes traduits par un moteur sans post-édition. Ces travaux de post-édition sont d’ailleurs proposés par plusieurs agences de traduction. Outre celles qui travaillent pour de très grandes entreprises du secteur informatique (ce n’est un secret pour personne que Microsoft ou Symantec exploitent énormément la traduction automatique pour localiser leurs produits), elles seraient de plus en plus nombreuses er ce services aux clients moins naturellement portés sur la haute technologie. D’après un rapport de Common Sense Advisory, (The Market for MT Post-Editing, 22 novembre 2010, Donald DePalma et Vijayalaxmi Hegde), les agences qui proposent un service de post-édition sont encore peu nombreuses, et ce service ne représente pas une grosse part de leur chiffre d’affaires (moins de 10% du CA pour 73% des agences interrogées), mais c’est celui qui croît le plus vite pour une vingtaine d’agences. Publié dans Actualité de la traduction, Revue de presse, Traduction automatique | 7 Réponses Professionnels de la traduction : conférences d’automne aux Etats-Unis Publié le 24 août 2010 par Guillaume 1 L’association TAUS organise une conférence dédiée à l’usage des outils de traduction automatique dans le monde de la traduction professionnelle à l’hôtel Governor de Portland, dans l’Oregon, du 3 au 6 octobre 2010. Les nombreuses communications prévues présenteront diverses plates-formes de traduction, dont celles de Lionbridge (GeoWorkz), de Lingotek ou de WeLocalize, qui s’appuie sur GlobalSight, une solution Open Source. Une présentation fera le point sur l’état actuel de la recherche en matière de traduction automatique. Puis, la question de la relation entre les divers aspects de la traduction professionnelle et la traduction automatique sera abordée de façon approfondie au cours de nombreuses interventions menées par des représentants de Microsoft, Systran, Asia Online, ProMT, Intel, Applied Language Solutions, SDL ou encore Lexcelera. De nombreux témoignages présenteront des études de cas, et une série d’ateliers sont prévus avant de début de la conférence elle-même. Pour finir en beauté, TAUS propose à ceux qui s’enregistrent de réserver leur place dans le bus qui les amènera à la conférence Localization World qui se tient à Seattle, dans l’état de Washington, du 6 au 8 octobre. Les communications seront là encore particulièrement nombreuses, puisque 5 parcours différents sont prévus, ce qui permet aux organisateurs de planifier près d’une quarantaine d’interventions en deux jours ! On y parlera de localisation de jeux vidéos, de la stratégie de globalisation du Web dans les années à venir, de , de qualité, de Google Translate… Impossible de s’y rendre sans consulter le programme détaillé avant de s’inscrire. Publié dans Actualité de la traduction, Marché de la traduction, Traduction automatique | Une réponse Les entreprises attendent la traduction automatique de qualité humaine Publié le 13 avril 2010 par Guillaume 3 La traduction automatique n’en finit pas de faire la Une de l’actualité. C’est d’abord SDL qui publie pour la deuxième année consécutive son étude sur les tendances en matière de traduction au sein des grandes entreprises. Les grandes entreprises adoptent la traduction automatique Résumant 228 entretiens avec des représentants de Wolter Kluwer, Hewlett-Packard, Kellog’s, Garmin ou Nokia, principalement aux Etats-Unis et en Europe, l’étude mesure l’intérêt pour la traduction automatique au sein des grands groupes. On y découvre par exemple que 17% des entreprises interrogées utilisent déjà la traduction automatique tandis que 11% prévoient de le faire à brève échéance, tandis que 30% n’y font pas appel pour des raisons de qualité insuffisante. Les principaux utilisateurs se recrutent dans le secteur informatique, alors que les entreprises des médias sont les plus méfiantes en matière de qualité. La question de la qualité est très intéressante, car lorsqu’on interroge les sondés sur leurs attentes en la matière, 60% d’entre eux répondent qu’ils souhaitent une qualité identique à celle délivrée par des humains. Et quand on leur demande s’ils ont envisagé post-éditer des traductions générées automatiquement, ils sont 35% à y avoir réfléchi pour finalement abandonner l’idée, alors que 30% exploitent ou mettent en place une solution de post-édition. Les langues majoritairement concernées par la traduction automatique sont les quatre langues majeures d’Europe (français, italien, allemand et espagnol). Il semble que les grandes entreprises envisagent de plus en plus sérieusement de mettre en place des solutions de traduction automatique post-éditée, en ayant pour moteur le gain de temps et d’argent, au moins dans les grandes langues. Systran analyse le corpus de l’entreprise Au même moment, Systran complète sa solution de traduction automatique avec Systran Traning Server, qui comporte Training Manager et Corpus Manager. Ces deux logiciels encadrent Systran Enterprise Server, et lui permettent de s’entraîner sur des corpus thématiques de textes (typiquement, des mémoires de traduciton). Le moteur de Systran est en mesure d’analyser les acquis linguistiques qu’il parcourt et d’en déduire les règles qui ont présidé à la construction des phrases cibles par comparaison entre les traductions automatiques et les traductions appartenant au corpus. Il crée alors un modèle ad-hoc qu’il appliquera lors de la traduction des prochains textes (pour plus détails, voir ici). Dans le même temps, son extracteur terminologique analyse les phrases pour en sortir les termes récurrents et construire automatiquement un dictionnaire (éditable à souhait). Évidemment, la qualité de sortie du moteur de traduction est bien meilleure, puisque le système associe l’analyse syntaxique traditionnelle, personnalisée par les dictionnaires de l’entreprise cliente, avec l’analyse statistique, personnalisée par les modèles construits sur la base des corpus de l’entreprise. En fin de processus, le texte se présente sous la forme d’un tableau entièrement modifiable, et le produit de l’opération de post-édition est enregistré dans une mémoire de traduction qui peut être ajoutée au corpus à l’aide de Corpus Manager. On entre alors, théoriquement, dans une boucle d’amélioration continue. Et c’est sans doute la raison pour laquelles plusieurs agences de traduction ont déjà fait l’acquisition de la solution complète. Deux obstacles, toutefois, à une généralisation d’une solution aussi aboutie : le prix (qui se compte en dizaines de milliers d’euros), et la puissance nécessaire aux PC chargés d’exécuter les moteurs d’analyse (16 Go de mémoire vive conseillés…). Il ne serait d’ailleurs pas surprenant de voir apparaître d’ici quelques mois une version online de type SaaS, accessible par abonnement à un prix forfaitaire, ou… calculé au mot. Des agences de traduction… automatique ? Les agences de traduction constituent désormais une cible de choix pour la distribution des solutions automatisées de traduction. On ne s’étonnera donc pas que Promt, le grand rival de Systran, lance PROMT Language Service Provider 9.0, destiné aux agences. Intégrable aux outils à mémoire de traduction, PROMT LSP 9.0 partage en réseau les dictionnaires personnalisés et les mémoires de traduction, prend en charge les formats de fichiers standards de la profession (XLIFF, TBX, TMX…), comporte un système de contrôle qualité statistique de type QA, et dispose d’API qui permettent de faire appel à ses fonctionnalités à partir d’autres programmes développés sur mesure. Une telle solution permet d’envisager de systématiser une approche de la traduction qui associe les mémoires, la traduction automatisée, et la traduction humaine. Les agences qui traduisent en interne ont de quoi s’intéresser à une telle approche, car elle permet d’associer qualité élevée et prix bas. Il y a même de quoi envisager de ré-internaliser la traduction pour certaines langues. Pourquoi ? Parce qu’on passe d’une productivité de 2000 mots relus par jour à une capacité de 1000 mots relus par heure ! Pour une qualité comparable, puisque c’est bien le traducteur humain, formé et expérimenté, qui contrôle et finalise le travail. Evidemment, la compétence mise en oeuvre par le traducteur n’est pas la même lorsqu’il traduit lui-même ou lorsqu’il prépare le texte source, personnalise le dictionnaire, contrôle la traduction automatique et l’édite. Dans le second cas, il concentre son apport sur la pertinence de sa compréhension du sens d’origine, le mécanisme linguistique et la valeur ajoutée de la formulation finale. C’est le coeur de métier du traducteur, ce que la machine ne peut pas modéliser. Toujours plus de textes à traduire… pour les humains ! C’est bien pour cela que le blog Global Watchtower prédit que la généralisation des outils de traduction automatique, au premier rang desquels Google Translate, va accroître, et non réduire, la demande en matière de traducteurs humains. Et de rappeler quelques vérités essentielles de notre métier, à commencer par le fait qu’une entreprise prend un risque en responsabilité lorsqu’elle émet un document vers l’extérieur, et que ce risque est accru lorsque la diffusion est dirigée vers un pays/une langue étrangère au donneur d’ordre. Par conséquent, il ne saurait y avoir de compromis en matière de qualité, c’est-à-dire en matière d’exactitude du message délivré. Si Google Translate fournit un résultat satisfaisant dans certains cas (comme dans cet extrait du Petit Prince), il est catastrophique dans d’autres (comme dans cet exemple de texte français, traduit d’après l’anglais). Il est d’autant moins fiable qu’il n’est pas personnalisable par l’utilisateur. C’est d’ailleurs la raison pour laquelle les équipes de Google ne se contentent pas d’aligner une gigantesque masse de données générique, comme ils l’expliquent ici, là, ou encore là. Et bien sûr, il y a aussi Google Translator’s Toolkit, dont les textes alignés par des humains viennent améliorer gratuitement le moteur. Lutter contre la pénurie de traducteurs En fait, une double tendance se dessine : d’une part, un accroissement très important des volumes de textes à traduire, tiré par l’automatisation (voir l’étude de Language Weaver) et, dans le même temps, une exigence accrue en matière de qualité de traduction. Exigence nourrie par la méfiance des clients à l’égard des traducteurs humains qu’ils suspectent, parfois à raison, de refourguer, en la faisant payer, la production de Google. Car il est vrai que les « mauvaises pratiques » sont une des plaies de notre profession, et l’amateurisme (ou la malhonnêteté) de quelques uns ruine l’image des vrais professionnels. N’est-ce pas, au fond, la raison pour laquelle les grandes institutions (Europe, ONU, Gouvernement Canadien) déplorent une pénurie de traducteurs et collaborent à des programmes de formation (voir aussi cet article), voire les financent ? Sans doute n’est-on plus très loin d’une segmentation du marché de la traduction (en tous les cas pour les langues majeures) où la traduction automatique à la Google contraindra peu à peu les amateurs à se retirer du marché ou à s’améliorer, tandis que les traducteurs professionnels exigeants conserveront la confiance de leurs donneurs d’ordre (et même, augmenteront leurs tarifs) pour des textes de taille moyenne, et que d’autres traducteurs, professionnels de la mécanique linguistique, personnaliseront en amont comme en aval des systèmes de traduction automatique de type Systran pour concilier volume, rapidité et qualité. Si cette répartition des tâches se réalisait, j’y verrais au moins deux avantages : l’élimination des textes traduits à la va comme je te pousse, qu’ils soient issus de traducteurs humains ou pas, et, par voie de conséquence, l’amélioration des revenus des professionnels, qui se feront -enfin !- payer à l’heure à des tarifs comparables à ceux des consultants. ——– On ne saurait tirer une conclusion générale sur la qualité de traduction de Google en s’appuyant sur Le Petit Prince, et cela pour trois raisons majeures. Un, il s’agit d’un texte fluide, simple, extrêmement bien rédigé, donc facile à analyser pour un moteur. Deux, ce texte fait partie des mmonuments de la littérature mondiale et, à ce titre, il a toutes les chances d’avoir été intégré au corpus d’entraînement de Google, c’est-à-dire de faire partie des références que le moteur interroge avant de renvoyer une réponse. Trois, il n’est absolument pas représentatif de ce qui est envoyé en traduction par les entreprises clientes. Il faudra un jour enquêter sur les mauvais côtés du statut d’auto-entrepreneur. Publié dans Actualité de la traduction, Traduction automatique | 3 Réponses Traduction automatique : toujours plus ! Publié le 8 mars 2010 par Guillaume Répondre Les annonces pleuvent en matière de traduction automatique. Tantôt, c’est SDL Trados qui intègre plus de moteurs à la nouvelle version de son logiciel à mémoire de traduction ; tantôt c’est Google qui lance une version de son navigateur Chrome capable de traduire une page Web sans passer par une extension ; quand ce n’est pas Microsoft qui présente son futur téléphone-traducteur(1), ou Google (encore !) qui traduit le texte d’une photo(2)… Et puis, dans cette jungle d’applications toujours plus business-centric, orientées vers la productivité totale (à défaut de qualité totale), on a de temps en temps un moment de respiration. Quand quelqu’un se souvient, par exemple, que traduire c’est communiquer, et décide de lancer un application gratuite destinée à faire se parler Arabes et Occidentaux. C’est ce que propose Meedan, un site qui traduit automatiquement les textes qui lui sont soumis avant de les faire relire par des êtres humains puis de les publier (dans cet ordre). Le site fonctionne à la façon d’un Wiki et se consacre à améliorer la compréhension des uns par les autres, et vice-versa(3). Bref, fait oeuvre utile. Pour de bon. Si vous voulez en savoir plus à ce sujet, lisez l’article que lui consacre Francis Pisani sur son blog, et, pourquoi pas inscrivez-vous comme traducteur volontaire ! Le Monde s’intéresse à la traduction automatique Publié le 25 février 2010 par Guillaume Répondre Le Monde publie aujourd’hui un article intéressant sur la question de la traduction automatique, où sont confrontés les points de vue de Google (qui annonce depuis peu de grandes ambitions dans ce domaine), de Systran, par la voix de son Directeur Marketing, Pierre Bernassau, et de Marie Candito, chercheuse spécialisée dans la question, enseignante à l’Université Paris Diderot (Paris 7). Le sujet de l’analyse statistique et de l’analyse syntaxique, et de leurs limites (étendue du corpus pour l’une, structure linguistique du couple de langue pour l’autre) sont particulièrement bien mises en lumière. Publié dans Actualité de la traduction, Traduction automatique | Laisser une réponse Traduction automatique : Systran se présente en ligne Publié le 1 février 2010 par Guillaume Répondre Le cycle des matinées découvertes de Systran Enterprise Server 7.0 a repris depuis le 27 janvier. Une nouveauté de taille : il est possible de s’inscrire à des présentations sur site (à La Défense) comme sur le Web (Webinaires). Les inscriptions se prennent directement auprès de Pierre Bernassau, le directeur Marketing (bernassau systransoft.com). Publié dans Outils de traduction, Traduction automatique | Laisser une réponse Google exploite la traduction automatique à bon escient Publié le 11 décembre 2009 par Guillaume 1 Nous l’avions déjà mentionné il y a plusieurs mois, Google innove sans cesse en matière de recherche « globale », et mixe ses technologies les unes aux autres afin d’en décupler leur puissance. Depuis deux jours, il est ainsi possible, et très facile, d’afficher des résultats de recherche en provenance de plusieurs langues. 1. Après avoir tapé sa requête initiale, on clique sur le lien intitulé « Afficher les options » qui se trouve désormais juste en dessous de la zone de recherche. 2. Une zone verticale s’ouvre alors sur la gauche de l’écran, qui propose de nombreuses options de recherche, toutes intéressantes à explorer. 3. La toute dernière, « interlangues », ouvre un cadre au-dessus du premier résultat de recherche. Les résultats eux-mêmes sont mis à jour en fonction des options de langue sélectionnées dans ce cadre. 4. Concrètement, on choisit une ou plusieurs langues dans lesquelles Google effectue la recherche équivalente à ce qui a été tapé initialement après traduction automatique de l’expression de recherche. 5. Les résultats en provenance de ces langues sont traduits dans la langue de départ, classés en fonction des habituels critères Google de référencement naturel et affichés. Chaque résultat signale clairement la langue d’origine. 6. Lorsque l’on clique sur l’un des résultats, la page qui s’affiche a déjà été automatiquement traduite dans la langue de la requête initiale. Ce qui permet d’ailleurs de contrôler que les sites commerciaux internationaux ne font pas appel aux outils de traduction automatique pour générer leurs versions locales. Honnêtement, il faut avouer que tout ceci est assez impressionnant. Et, malgré tout ce qu’on est habituellement enclin à penser de la traduction automatique, il faut reconnaître qu’elle est, dans ce cadre, utilisée à bon escient. Publié dans Actualité de la traduction, Traduction automatique | Une réponse Traduction de sous-titres : Google automatise à tout va Publié le 8 décembre 2009 par Guillaume 1 Google est en train d’ajouter une fonction automatisée de sous-titrage aux vidéos publiées sur Youtube. La fonction sous-titrage existe déjà, mais l’utilisateur qui souhaite sous-titrer sa vidéo doit en taper le texte lui-même. Il sera bientôt possible (ça l’est déjà pour certaines vidéos des chaînes éducatives) d’obtenir un sous-titrage automatique, grâce à la technologie Google Voice, qui transcrit un enregistrement audio. Quel rapport avec la traduction ? Eh bien, il est d’ores et déjà prévu, d’après cet article intéressant de Numérama, de rendre possible la traduction automatique des sous-titres avec Google Translate. Autrement dit, bientôt, pour sous-titrer une vidéo et la traduire, il suffira de la poster sur un compte Youtube privé, et de faire appel à ces fonctions automatisées. D’ailleurs, Google a même prévu une vidéo de démonstration : regardez. [EMBED] Publié dans Actualité de la traduction, Outils de traduction, Traduction automatique | Une réponse Ouverture du douzième Machine Translation Summit Publié le 5 août 2009 par Guillaume 1 Le douzième Machine Translation Summit se tiendra cette année du 26 au 30 août au château Laurier, à Ottawa (Canada). Réunissant scientifiques, éditeurs de logiciels de traduction automatique et utilisateurs de ces produits, cette conférence fait le point sur l’état de l’art. Tous les principaux acteurs sont présents : Promt, Systran, SDL, Terminotix, Language Weaver, Multicorpora, Common Sense Advisory, etc. Une journée entière sera consacrée à des formations à l’utilisation de logiciels de traduction automatique, et une autre à l’évaluation des différents produits. En toure, de nopmbreux ateliers s’intéresseront à des sujets comme la post-édition de traductions automatiques, ou la collaboration entre mémoires de traduction, Traduction automatique et traducteurs. La liste des articles de recherche présentés est en elle-même très intéressante. Publié dans Outils de traduction, Traduction automatique | Une réponse Systran Enterprise Server 7, un tournant pour la traduction automatique Publié le 25 mai 2009 par Guillaume 4 Comme nous l’avions annoncé voilà quelque temps, Systran organise des sessions de présentation de Systran Enterprise Server 7. Cette nouvelle version constitue à n’en pas douter un tournant majeur pour le moteur de traduction automatique, grâce auquel l’entreprise de San Diego prend clairement l’avantage sur ses concurrents. La raison ? Le moteur de traduction hybride associe l’analyse sémantique à l’analyse statistique et intègre un processus d’amélioration continue. Jusqu’à présent, Systran, comme promt ou Reverso, reposait sur un système d’analyse sémantique. Le moteur analysait chaque phrase source et créait l’arbre syntaxique permettant de représenter ses composantes et les relations qui les unissent. Puis, chaque expression était traduite en faisant appel à un dictionnaire, et, une fois l’arbre entièrement traduit, le logiciel restituait la phrase cible. Dans ce mode de traduction automatisée, le plus courant, le dictionnaire constitue un élément central : plus il est complet, meilleur est le résultat. Pourtant, même avec des dictionnaires très fournis, il est presque impossible de produire une phrase cible totalement correcte. Car l’usage consacre des expressions qui constituent des exceptions innombrables à l’analyse grammaticale traditionnelle, et le moteur d’analyse syntaxique ne sait pas les reconnaître. Lorsque, par exemple, on parle dans un manuel informatique de « la boîte de dialogue Propriétés de Mes documents », le lecteur identifie « Propriétés de Mes documents » comme un nom propre, complément du nom « boîte de dialogue », et ne tente pas d’analyser plus en détail. Le moteur, lui, va tenter d’attribuer une fonction à chacun des termes pris isolément : comment relier « Propriétés » et « Mes documents » à « boîte de dialogue » ? Pour que le dictionnaire permette d’identifier la solution correcte, il faut qu’il la contienne : il faudrait avoir mis à jour le dictionnaire sur la base du document avant de le traduire. Lorsqu’on utilise un logiciel de traduction de ce type, il faut soit se résigner à obtenir un résultat imparfait soit, si l’on est traducteur soi-même, associer Mémoire de traduction, Traduction automatique, Traduction humaine, et mise à jour interactive du dictionnaire de traduction automatique. Cette combinaison d’outils et de savoir-faire se révèle très puissante : on obtient un texte cible d’une excellente qualité, en produisant 2 000 mots de l’heure, contre les habituels 2 500 mots par jour. L’auteur de ces lignes en a l’expérience, pour avoir utilisé cette méthode il y a plusieurs années pour assurer la traduction de deux ouvrages d’informatique de 1 500 pages chacun en quatre mois. Le moteur de Systran Enterprise Server 7 continue bien sûr d’utiliser la méthode sémantique d’analyse des textes source. Mais il la complète avec la méthode d’analyse statistique, qui a été popularisée par Google Translate. L’analyse statistique repose sur l’exploitation de corpus de traduction, qui permettent de déterminer quelle est la traduction la plus fréquemment utilisée pour une expression donnée. Autant un corpus généraliste est presque inexploitable, car il devrait comporter des milliards de phrases pour être utile (c’est un des aspects de la difficulté qu’éprouve Google Translate à fournir des résultats pertinents), autant un corpus spécialisé se révèle d’une efficacité redoutable. Vous traduisez des brevets ? Imaginez un moteur capable d’apprendre les règles à appliquer pour traduire des brevets en se basant sur toute votre production passée. Il y a de fortes chances qu’il produirait de bons résultats… si votre corpus d’origine est lui-même de bonne qualité (voir à ce sujet l’article SMT: undersantding the human factor, de Kirti Vashee, paru dans Multilingual en décembre 2008). Lors de l’apprentissage du corpus, Systran Enterprise Server 7 crée des « modèles de traduction » qui complètent les « modèles de langue ». Ces modèles, propres au domaine de spécialisation couvert par le corpus, ont pour fonction de lever les ambiguïtés de traduction issues du moteur sémantique et d’améliorer la fluidité du texte cible. Ils sont d’autant plus efficaces qu’ils gèrent des sous-segments (chunks, expressions) et non des phrases entières. Or ce sont bien les sous-segments qui posent le plus de problèmes en analyse sémantique. Une fois le document source traduit grâce à l’association de ces deux méthodes, il est mis à disposition dans un éditeur de texte. L’utilisateur peut alors le modifier, corriger la formulation, personnaliser les dictionnaires utilisés, préciser qu’il aurait fallu employer tel usage plutôt que tel autre, etc. Si l’utilisateur apporte des modifications aux dictionnaires, il peut ensuite demander une nouvelle traduction, qui prendra ses changements en compte. Mais il peut aussi tout simplement changer la phrase elle-même. Il corrige ainsi la Mémoire de traduction issue de l’alignement automatique entre les phrases du document source et leurs contreparties du document cible. Ces modifications une fois validées, la Mémoire peut être ajoutée au corpus, et sera analysée par le moteur d’analyse statistique. En fait, comme l’analyse de corpus est un processus assez long et consommateur de ressources, les Mémoires de traduction issues des traductions révisées n’y sont pas ajoutées automatiquement. C’est à l’utilisateur de décider, à un moment donné, d’enrichir son corpus existant de tous les travaux réalisés sur une période donnée, voire de créer un corpus entièrement nouveau. La solution logicielle complète fonctionne sur un modèle client-serveur : les corpus sont stockés sur le serveur avec le moteur, qui est interrogé par des outils clients. Par exemple, le Gestionnaire de projets, qui traduit un ou plusieurs fichiers à la fois, contient une interface de post-édition bilingue, qui permet de réviser les ambiguïtés, d’afficher toutes les occurrences d’un terme dans le document, d’ajouter des mots ou des sens inconnus aux dictionnaires, de procéder à des extractions terminologiques, de créer des clichés de traduction qui mémorisent l’état courant de la traduction et autorisent des comparaisons ultérieures entre clichés, etc. Les autres outils permettent par exemple de traduire un texte sans quitter Microsoft Word, ou d’afficher une barre d’outils de traduction disponible pour toutes les applications. Systran Translation Server 7 gère pour le moment plus de 20 domaines de spécialisation prédéfinis et 52 paires de langues bidirectionnelles, auxquelles vont bientôt s’ajouter 16 autres paires monodirectionnelles. Il devrait être disponible à la vente en septembre 2009, les prix étant bien entendu élevés, puisqu’il s’agit d’une solution destinée à permettre aux entreprises de traduire d’importants volumes de textes. En associant ainsi analyse sémantique, analyse statistique, mémoires de traduction et traduction humaine, Systran se donne les moyens de faire rimer traduction automatique et qualité, et de peser sur le marché. La solution semble vraiment très prometteuse pour la traduction de nombreux documents longs traitant d’une thématique donnée : brevets, ouvrages spécialisés, réglementations,… le champ est vaste ! Publié dans Traduction automatique | 4 Réponses La traduction automatique passe à l’apprentissage profond La traduction automatique passe à l’apprentissage profond Le mardi 28 août 2018 Gratuit Depuis quelques années, l'apprentissage profond a révolutionné le domaine de la traduction automatique. Les résultats montrent un immense progrès par rapport aux techniques utilisées auparavant, mais on est encore loin d'une traduction idéale, surtout pour les langues moins usitées ou qui nécessitent une analyse syntaxique poussée. Depuis ses débuts, la traduction automatique a subi de multiples transformations. La première approche mise en œuvre, des années 1950 jusqu'aux années 1990, était fondée sur des règles, puis progressivement, les approches statistiques ont pris le dessus. L’idée principale des approches à base de règles consiste à utiliser des dictionnaires bilingues ainsi qu'une analyse plus ou moins fine de la structure des langues visées, au moyen de règles définies manuellement. Les limites de ces systèmes sont apparues rapidement : le sens des mots est trop ambigu, il dépend trop du contexte pour que l’on puisse tout formaliser sous forme de règles. Les linguistes sont dès lors confrontés à deux problèmes connexes : d’une part, l’impossibilité de définir assez de règles pour pouvoir déterminer le sens de tous les mots en contexte (il faut avoir en tête qu’un dictionnaire courant contient environ 50 000 mots, et que chaque mot peut avoir plusieurs sens), d’autre part, les règles définies interagissent les unes avec les autres, ce qui, en pratique, rend les systèmes ingérables dès qu’ils atteignent une certaine ampleur. A la fin des années 1980, l’apparition de grands corpus bilingues change la donne : ces corpus ne pourraient-ils pas servir de base de connaissances géante, pour déterminer les traductions futures à partir de traductions existantes ? On commence en effet à disposer à partir de la fin de cette époque de grands corpus parallèles sous forme électronique, c’est-à-dire de textes bilingues, où le texte en langue source est « aligné » avec le texte en langue cible au niveau des phrases, et parfois au niveau des mots. Un des corpus le plus utilisé, dans les années 1980, est le Hansard, qui contient les transcriptions officielles des débats parlementaires canadiens. Il s’agit donc d’un corpus bilingue français-anglais et la nature des documents fait que la traduction doit être extrêmement précise et fidèle. Les textes peuvent donc être alignés au niveau du document, mais aussi de la phrase voire à l'intérieur de la phrase. Ensuite il ne s’agit bien évidemment pas de retrouver telles quelles des phrases à traduire dans les corpus passés, mais des fragments de traduction, au niveau des mots ou de groupes de mots, puis d’assembler ces fragments de traductions pour former des phrases correctes dans la langue cible. L’idée, tout d’abord testée à titre exploratoire, s’impose rapidement devant la qualité inespérée des traductions ainsi obtenues. La réalité du corpus fait foi. Autrement dit, l’observation de grandes masses de données permet de déterminer assez finement le sens en tenant compte du contexte. Ainsi, le niveau de stabilité des traductions observées pour un mot donné permet de déterminer son degré d’ambiguïté. Si un mot est presque toujours traduit par le même mot dans la langue cible (comme « crystallography » en anglais face à « cristallographie »), alors il est peu ambigu, c’est-à-dire qu’il a un seul sens, stable et précis, tandis qu’à l’opposé une grande diversité de traductions révèlera un mot polysémique, dont le sens dépend davantage du contexte (comme « avocat » qui peut être rendu par « avocado », « lawyer », « attorney », « consel », etc.). Les systèmes automatiques et, plus particulièrement statistiques, sont très efficaces pour déterminer les bons indices permettant de trouver la bonne traduction (il peut s’agir de simples cooccurrences : si les mots « table » « mange » ou « salade » sont présents dans le contexte, alors « avocado » a des chances d’être une bonne traduction ; à l’inverse si c’est « juge » ou « tribunal » que l’on trouve en contexte, la traduction par « lawyer » sera plus indiquée. Cet exemple est très simple, mais il illustre bien la puissance de l’ordinateur qui pourra enregistrer de manière automatique ces différents contextes à très large échelle, ce qui est au contraire extrêmement fastidieux pour un humain. L’approche sera constamment améliorée, en particulier pour aller au-delà des mots et procéder à la traduction directe de groupes de mots, plus ou moins longs, ce qui améliore les traductions obtenues et permet notamment d’éviter l’écueil du mot à mot. L'intelligence artificielle change la donne La traduction statistique souffre toutefois de problèmes connus et difficiles à surmonter. En particulier, une des faiblesses majeures de ces systèmes est de devoir composer la traduction d’une phrase par assemblage de fragments de textes trouvés dans la langue cible. Or ces fragments peuvent être hétéroclites et ne sont pas toujours compatibles entre eux : il y a dès lors un fort risque d’obtenir des phrases bancales, voire incohérentes. Si les systèmes se sont considérablement améliorés depuis les années 1990, les phrases restent toutefois souvent mal traduites, surtout si elles sont longues. Par ailleurs, on observe que le Web est un objet de plus en plus multilingue. Ainsi, la part des utilisateurs dont la langue maternelle est l’anglais serait passée aux alentours de 25% récemment (cf. Internet World Stats, Miniwatts Marketing Group), et cette proportion est en constante diminution depuis le début du Web. Les besoins en matière de traduction automatique sont donc avérés et le marché continue de pousser pour une traduction de meilleure qualité. Alors que les systèmes de traduction automatique statistique s’amélioraient régulièrement, un changement majeur est survenu ces dernières années. Il s’agit, comme on peut s’en douter, de l’arrivée de l’apprentissage profond (c’est-à-dire des réseaux de neurones artificiels). L’approche neuronale a un énorme avantage sur l’approche statistique classique : elle permet de considérer la phrase en entier, d’un coup, ce qui évite la phase hasardeuse d’assemblage des fragments épars de traduction. La nouveauté principale est de procéder par une analyse contextuelle globale, c’est-à-dire qu’à tous les niveaux d’analyse, le sens des mots sera représenté par leur entourage. Puis, les mots sont regroupés en ensembles plus larges sémantiquement homogènes baptisés plongements de mots (ou « word embeddings » en anglais). L’avantage de cette technique est d’améliorer notablement la notion de contexte en prenant en compte non seulement le contexte du mot considéré, mais aussi celui des mots les plus proches sémantiquement, ce qui permet de mieux prendre en compte les mots rares par exemple. L’analyse de la phrase est hiérarchique : pour chaque niveau (mot, groupes de mots, puis phrase complète) une représentation riche, contextuelle et dynamique est à l’œuvre (riche car un très grand nombre d’informations de natures très diverses est pris en compte ; dynamique et contextuelle car le contexte à prendre en compte change dynamiquement pour chaque unité linguistique à analyser). Un aspect intéressant de cette approche est que le système, en découvrant progressivement des régularités de façon incrémentale, identifie des groupes de mots linguistiquement liés. Autrement dit, sans que la syntaxe – c’est-à-dire les relations entre les mots – soit directement et explicitement formalisée, le système la reconstitue de lui-même en partie. Au-delà des performances, certaines caractéristiques de cette approche entrent en résonance avec les sciences cognitives, ce qui contribue aussi à sa popularité. Les mots, tout comme les syntagmes () ou les phrases, peuvent être directement comparés sur une échelle relative. Autrement dit, non seulement obtient-on des synonymes ou des antonymes, mais on trouve aussi par cette méthode des mots plus ou moins proches sémantiquement, ou qui constituent des traductions plus ou moins pertinentes selon le contexte, ce qui semble bien correspondre à la réalité de la langue. Le fait que des éléments de structure – de syntaxe – apparaissent dans la traduction sans que celle-ci soit encodée explicitement est aussi une caractéristique importante de ces modèles. On est ici très loin, voire à l’opposé des approches manuelles en vogue au début de la traduction automatique. L’approche par apprentissage profond peut dès lors susciter des discussions sur ses rapports avec l’apprentissage humain. Mais l’analogie a aussi ses limites. Ainsi, les systèmes ont encore besoin d’infiniment plus de données qu’un humain pour inférer des connaissances, ce qui pose problème pour les langues moins bien représentées sur Internet par exemple. Les systèmes d’apprentissage sont aussi complètement déconnectés de la réalité et n’ont aucune connaissance de sens commun par exemple. Les limites de l'apprentissage profond L’approche neuronale s’est généralisée en quelques mois à l’ensemble des grands acteurs de la traduction automatique. Le mouvement a été particulièrement frappant à l’automne 2016, quand Google a proclamé avoir remplacé son système de traduction automatique fondé sur l'approche statistique par un modèle par apprentissage profond, avec une amélioration immédiate et très visible des résultats. A sa suite, tous les grands acteurs du domaine ont annoncé leur passage à l’apprentissage profond. Le contraste a été assez saisissant avec ce qui s’était passé 25 ans plus tôt, quand l’approche statistique avait mis plusieurs années à s’imposer. Dans les années 1990, certains acteurs du domaine opposaient statistiques et sémantique. En 2016, nul débat de ce type : l’amélioration du système de Google a été nette (au moins pour certains couples de langues comme français-anglais) et la popularité de l’apprentissage profond dans d’autres domaines (du jeu de go à la vision artificielle) a fait le reste. Tous les problèmes de la traduction automatique ne sont pas résolus pour autant. Certains sont des problèmes classiques de la traduction automatique, comme celui du traitement des mots « inconnus » (c’est-à-dire inconnus du système). La gestion des mots inconnus est un problème banal, mais toujours mal résolu et pour lequel chaque équipe met au point des « remèdes » plus ou moins efficaces. (translittération ou copie directe si le mot a des chances d’être un nom propre, analyse de la structure du mot si elle est possible ; en pratique le mot est souvent juste copié ou « omis » dans la langue cible, faute de traitement adéquat). Plus fondamentalement, comme pour les approches statistiques, l’apprentissage profond nécessite toujours énormément de données (des corpus parallèles de plusieurs millions de mots). Il est donc douteux que l'on dispose jamais (ou en tout cas pas dans un futur proche) de corpus bilingue suffisant pour développer des systèmes efficaces, au-delà d’un cercle restreint d’une dizaine ou d’une quinzaine de langues bien représentées sur Internet. C'est manifeste sur la qualité des traductions produites : celles-ci sont relativement bonnes entre le français et l’anglais, mais beaucoup moins pour d’autres couples de langues (ainsi les traductions de l’arabe ou du chinois, bien qu’ayant donné lieu à de très nombreuses recherches, restent encore souvent très défaillantes). Au-delà de la masse de données disponibles, différents facteurs expliquent la grande variation de la qualité des traductions obtenues. La traduction vers l’anglais est plus aisée que vers d’autres langues car l’anglais isole les mots et a une morphologie particulièrement pauvre. Autrement dit, les mots varient peu en anglais : le genre, le nombre voire le temps verbal est à peine marqué, alors que d’autres langues tel l’allemand ou le russe agrègent beaucoup d’informations sur le mot. Du coup, pour traduire en allemand ou en russe, il faut d’abord procéder à une analyse syntaxique pour déterminer la fonction du mot dans la phrase, puis son cas et sa forme précise, telle qu’on la trouve dans les textes. Ce type d’analyse est complexe, et les systèmes passent de surcroît fréquemment par l’anglais pour traduire (même quand la source ou la cible n’est pas l’anglais), rajoutant autant d’erreurs potentielles. Toutefois, même si les grands acteurs en sont encore là, c’est qu’ils ont observés qu’une double traduction passant par l’anglais donne malgré tout de meilleurs résultats qu’une traduction directe entre les deux langues concernées. Enfin, la structure et la proximité linguistique des langues a aussi une influence majeure. La traduction entre langues indo-européennes, même parfois avec relativement peu de données disponibles, fonctionne mieux que la traduction vers le chinois ou l’arabe, car ces langues ont une structure et des principes linguistiques très différents de ceux de l’anglais. Une question intéressante est alors de savoir jusqu’où les approches à base d’apprentissage sur de grands corpus parallèles peuvent s’améliorer ou, autrement dit, s’il y a des limites fondamentales inhérentes à l’approche qui exigeraient un retour de la syntaxe ou des linguistes dans l’affaire. Thierry Poibeau et Marianne Reboul Thierry Poibeau est directeur de recherche au CNRS. Il mène des recherches en traitement automatique des langues à l’Ecole normale supérieure à Paris, au sein du laboratoire Lattice (langues, textes, traitements informatiques, cognition, UMR 8094). Marianne Reboul est maître de conférences en Humanités Numériques à l'ENS de Lyon, menant ses recherches au sein du laboratoire IHRIM (UMR 5317). () Un syntagme est un groupe de mots formant une unité au sein de la phrase (on parle aussi de groupe nominal, de groupe verbal, etc.). Photo : DR Évaluer la traduction automatique L’évaluation des systèmes de traduction automatique (par exemple la mesure de la performance relative de différents systèmes, ou de leur progrès au cours du temps) est un problème difficile mais crucial. C’est un problème difficile dans la mesure où il n’y a pas de critère formel clair permettant de définir ce que serait une bonne traduction. Du fait de cette difficulté, la solution la plus courante consiste simplement à comparer une traduction automatique avec des traductions manuelles de référence au moyen de séquences contiguës de n mots appelées « n-grammes » (en pratique, on utilise souvent des séquences de 4 mots). Plus il y a de séquences de 4 mots en commun entre la traduction automatique et la/les traduction/s de référence, plus la traduction sera jugée de bonne qualité (cette mesure est appelée BLEU, pour Bilingual Evaluation Understudy). Ce type d’évaluation peut surprendre dans la mesure où elle semble très simpliste, et qu’elle n’intègre aucun élément de nature syntaxique ou sémantique (elle ne permet pas de s’assurer que les phrases sont correctes ni qu’elles rendent compte de la sémantique du texte original). Il s’agit toutefois d’une technique d’évaluation rapide, efficace et simple à mettre en œuvre ; il a surtout été montré qu’elle est relativement bien corrélée aux jugements humains : les scores obtenus ne sont pas significatifs en soi, mais ils permettent de comparer relativement finement des systèmes entre eux, ou l’évolution de la qualité d’un système au cours du temps. Réseau de neurones et réseaux d'influence La traduction automatique est un domaine applicatif, mais peut aussi donner lieu à des recherches très différentes, pour analyser des œuvres littéraires par exemple. Ainsi, en analysant trois traductions de l'Odyssée d'Homère, nous avons pu mettre en évidence comment les traductions se distinguent dans la manière de traduire selon les époques. Chaque mot des traductions est représenté par un vecteur de mots, c'est-à-dire une représentation sémantique des mots sous forme de vecteurs en n dimensions. Ces vecteurs de mots, construits à l'aide des techniques des réseaux de neurones sont notamment utiles pour évaluer la proximité d'emploi de mots entre les textes. Sur cette représentation, nous avons représenté les vecteurs de mots de trois traductions d'Homère (Anne Dacier, seule traductrice d'Homère, au XVII^e siècle ; Leconte de Lisle au XIX^e ; Victor Bérard au XX^e). On constate que la traduction de Dacier est sémantiquement plus éloignée que celle des deux traductions postérieures. Lorsqu'on travaille sur des textes fréquemment traduits, on peut donc étudier les traducteurs qui s'inspirent les uns des autres en fonction de la manière dont ils traduisent. Références : Homère, L’Odyssée traduite en francois, avec des remarques, trad. Anne Dacier, Paris, Rigaud, 1716, 3 vol. Homère, L'Odyssée, Hymnes, Épigrammes, Batrakhomyomakhie, trad. Charles-Marie Leconte de Lisle, Paris, Lemerre, 1868 Homère, L’Odyssée : chants I à VII, t. 1, trad. Victor Bérard, Paris, Les Belles Lettres, 1924, 3 vol. Image : Thierry Poibeau et Marianne Reboul Chez Google on se préoccupe aussi d’accessibilité et de continuer à innover pour proposer des services simples qui sont réellement utiles. C’est le cas aussi dans les filiales de Google, et notamment chez YouTube, qui a lancé il y a quelques jours deux nouvelles fonctionnalités relatives au sous-titrage et à la traduction des vidéos. autocaps Auto-caps (pour Automatic Captions, en français : sous-titres automatiques) est un nouveau service qui combine l’ASR (automatic speech recognition) de Google et le système de sous-titres de YouTube pour générer automatiquement la transcription écrite et synchronisée en temps réel du texte contenu dans les vidéos de YouTube. Ainsi, ceux qui souffrent de déficience auditive ou de surdité peuvent-ils suivre par exemple la vidéo d’une conférence en lisant les sous-titres générés à la volée, comme ici par exemple. [EMBED] Mais le système Auto-caps ne se limite pas à rendre accessible les vidéos aux mal-entendants : c’est aussi une assistance formidable pour ceux dont le niveau d’anglais est insuffisant pour pouvoir suivre une conférence oralement mais suffisant pour en lire et en comprendre le transcript. Sans compter qu’ils pourront encore être aidés par la traduction automatique des transcripts dans leur langue. > Lire aussi : Google aurait l’intention de déployer Google Assistant sur presque tous les Chromebook Autre fonctionnalité proposée avec ces nouveautés : la possibilité d’associer son propre transcript au format texte (.txt) à une vidéo pour que YouTube se charge de le synchroniser afin de le transformer en sous-titrage. Auto-caps n’est pour le moment disponible qu’en anglais et pour une sélection de sites à vocation éducative comme UC Berkeley, Stanford, MIT, Yale, UCLA, Duke,UCTV, Columbia, PBS ou encore National Geographic, mais devrait être étendu prochainement à d’autres sites. La traduction des sites bénéficiant d’Auto-caps est quant à elle déjà disponible dans plusieurs langues, dont le français. (source) GoogletraductionYoutube [presse-citron-nav.png] Sur le même sujet Google travaillerait sur un mode sombre pour Android Q Google Bermudes Google Bermudes En 2017, Google a transféré environ 20 milliards d’euros aux Bermudes Verily Google Alphabet Verily Google Alphabet Verily, la filiale de Google dédiée aux sciences lève un milliard de dollars Depuis des années, géants du Web et start-up spécialisées s’affrontent, à grand renfort de communiqués triomphants, pour affirmer que leur outil de traduction automatique est supérieur aux autres. Dernier épisode en date : le lancement de DeepL, mardi 29 août, une société européenne qui revendique un service « trois fois plus performant que celui de Google ». Malgré la nouveauté du nom, elle n’est pas inconnue puisqu’elle propose déjà le dictionnaire en ligne linguee.com. DeepL a puisé dans sa formidable base de données issue du site Linguee pour s’entraîner Tous ces services utilisent désormais des technologies similaires, fondées sur l’apprentissage automatisé (« deep learning », ou réseaux de neurones artificiels), une révolution récente, notamment connue pour avoir permis de battre les meilleurs joueurs de go. Elle permet aussi aux assistants vocaux d’obéir à leur maître, ou aux voitures, d’avancer sans pilote… Pour la traduction, c’est seulement en 2014 qu’un schéma, proposé par l’université de Montréal, a fait faire un saut qualitatif aux outils automatiques. Les groupes majeurs du secteur de l’informatique les ont rapidement adoptés et perfectionnés avant de les mettre à disposition en ligne depuis quelques mois seulement. DeepL s’inspire de ce principe mais n’en communique pas pour l’instant les détails. Une chose est sûre, il a puisé dans sa formidable base de données – issue du site de traduction Linguee – pour s’entraîner et apprendre. Pour nous faire une idée plus précise, nous avons effectué un test simple et efficace (bien que nécessairement limité) : nous avons fait traduire à ces logiciels une série de textes de l’anglais vers le français, en puisant dans différents registres d’écriture, allant de la poésie aux documentations techniques. Nous avons testé cinq services : DeepL, les services de traduction de Google, Bing, Yandex et Baidu (déployez les fenêtres pour pouvoir comparer les textes). Ces tests sont loin d’être exhaustifs, mais permettent de voir quelles sont les différences entre ces services dans le cadre d’un usage « du quotidien ». A noter que DeepL propose pour l’instant seulement sept langues (français, anglais, allemand, italien, polonais, néerlandais et espagnol). Poésie. Confrontés à un poème d’Emily Dickinson, To Make a Prairie, les différents traducteurs se sont emmêlé les pinceaux. Si le texte original est bref et ne comporte pas de pièges de traduction, ni Bing ni Baidu ne sont parvenus à traduire le terme « revery » (« rêverie «), certes peu usité, et Yandex n’a tout simplement pas compris la dernière partie du poème. Google traduction s’en est à peine mieux sorti, avec une traduction très personnelle de « revery » par « convivialité » et un problème sur l’expression « will do » (« suffira », et non « fera »). DeepL, quant à lui, a traduit correctement l’essentiel du poème, à une erreur près : l’absence d’un déterminant aux troisième et quatrième lignes, erreur qu’aucun traducteur humain n’aurait faite. Documentation technique. C’est le point fort des outils de traduction automatique : confrontés à un texte simple (en l’occurrence, un extrait du manuel de la PlayStation 4), tous se sont bien sortis d’affaire. A noter, l’extrait ne comportait pas de vocabulaire technique spécifique – si vous devez régulièrement traduire des textes avec de nombreux mots spécifiques à un corps de métier, les résultats peuvent être beaucoup plus variables. Article de presse. Un extrait d’un article sur l’interprétation d’une tablette babylonienne a donné du fil à retordre aux traducteurs automatiques. DeepL s’en est mieux tiré que ses concurrents, là aussi en faisant une maladresse de traduction qu’un traducteur humain n’aurait pas faite (les « sept merveilles de l’ancien monde » aurait plutôt été traduite par « les sept merveilles du monde » ou « de l’Antiquité »). Bing a glissé deux contresens dans sa traduction (« supportée » et « convaincus »). Google a quant à lui commis un contresens dès le premier mot (« fabled », faux-ami signifiant « célèbre », traduit par « fable »). Les deux américains s’en tirent cependant un peu mieux que Baidu et Yandex, dont les traductions sont bien moins compréhensibles que le théorème de Pythagore. Texte à la première personne. Sur un bref extrait d’une tribune, au style sobre d’un ministre, DeepL a également obtenu de meilleurs résultats que les autres services, grâce à des tournures de phrase plus « françaises » et en évitant un petit piège : les quatre autres ont traduit « to discuss these issues further » par « discuter de ces questions plus loin », ce qui n’est pas correct. DeepL a lui correctement traduit par « discuter de ces questions plus en profondeur ». Néanmoins, Google et Bing ont fait montre de style en évitant les répétitions, « J’admire et respecte » au lieu de « J’admire et je respecte » pour DeepL. Compte rendu sportif. C’est de très loin le texte qui a posé le plus de problèmes aux cinq outils, qui s’écartent de leurs performances poétiques ou techniques. La verve du commentateur du Guardian résumant la finale de la Coupe du monde de rugby entre l’Angleterre et la Nouvelle-Zélande a eu raison de leurs e-neurones. DeepL traduit « tacle » au lieu de « plaque ». Google tire un coup de fusil, au lieu de taper au pied. Bing déguise en « mouche » une demie d’ouverture (« fly-half », en anglais). Baidu et Yandex sont K.-O., dès les premières minutes du match, enchaînant les erreurs, les en-avant et non-sens. Conclusion. Il est toujours facile de leurrer un traducteur automatique, et même quand les phrases sont correctes, sur la longueur, le lecteur ressent le côté froid de la machine. Néanmoins, les progrès sont réels, comme le montrent les résultats à des tests normalisés pour évaluer avec rigueur la qualité des outils. Lors de la mise en ligne de son nouvel algorithme fin 2016, Google avait gagné plusieurs points au test dit BLEU. DeepL communique qu’elle a encore progressé à ce test, surpassant de près de trois points le meilleur des algorithmes publiés de l’anglais vers l’allemand et de plus de trois points, de l’anglais vers le français. Tout en restant loin des performances humaines. David Larousserie et Damien Leloup Réagissez ou consultez l’ensemble des commentaires Les plus lus 1. A Tokyo, Carlos Ghosn clame son innocence 2. Le Parlement britannique prend la main sur le Brexit en infligeant un camouflet à Theresa May 3. « Gilets jaunes » : Chantal Jouanno se retire du pilotage du grand débat national Édition du jour Traduction automatique, ATALA, CETA, CETAP, CETAG Haut de page Plan La traduction automatique : un enjeu scientifique, technique et économique sans précédent Le retard français L'informatique en France à la fin des années 1950 L'Institut Blaise-Pascal Les machines et les hommes La cybernétique La linguistique au CNRS en 1959 Émile Delavenay, l'Unesco et l'ATALA La préhistoire de la traduction automatique en France : le rôle d'É. Delavenay et de l'Unesco L'ATALA et le centre Favard Création du CETA Le CETAP Le CETAG Le rapport Sestier Un centre de traduction en séries Technologie linguistique et ingénieurs linguistes La répartition des tâches : un problème de machines ? La dissolution du CETAP L'abandon de la recherche en syntaxe Les linguistes français qui s'intéressent à la traduction automatique Le groupe de traduction automatique de Nancy La démission d'A. Sestier Conclusion Haut de page Notes de la rédaction L'auteur tient à remercier André Lentin, Yves Gentilhomme, René Moreau, Guy Bourquin, Bernard Pottier, Antoine Culioli, Maurice Gross, Sophie Fisher et Claude Del Vigna pour les informations qu'ils lui ont communiquées ou les archives qu'ils ont bien voulu lui confier. Ils ne peuvent bien sûr être tenus pour responsables des erreurs ou omissions qui figureraient dans cet article. Texte intégral PDF Signaler ce document 1C'est en 1959-1960 que se concrétise l'intérêt des Français pour la traduction automatique. Le CNRS y participe pleinement en créant en décembre 1959 le CETA (Centre d'études pour la traduction automatique) au sein de l'Institut Blaise-Pascal, avec deux sections, l'une à Paris, le CETAP, dirigé par Aimé Sestier, l'autre à Grenoble, le CETAG, dirigé par Bernard Vauquois. La création du CETA est précédée par celle de l'ATALA (l'Association pour l'étude et le développement de la traduction automatique et de la linguistique appliquée) en septembre 1959. Elle sera suivie par celle du groupe de traduction automatique de la faculté des lettres de Nancy, en mai 1960, dirigé par Bernard Pottier et Guy Bourquin. 2La traduction automatique est donc un des premiers bénéficiaires de la politique gaullienne de renforcement de la recherche initiée à la fin des années 19501. Pourtant, il faut noter que l'intérêt des Français à son égard est relativement tardif, puisque les premières recherches sur la faisabilité de traductions à l'aide d'une calculatrice électronique datent de 1948 en Grande-Bretagne et aux Etats-Unis, et de 1954 en Union soviétique. Aussi, dans cet article, qui retrace l'histoire de la création par le CNRS d'un laboratoire de traduction automatique, tenterons-nous d'élucider deux questions. La première consiste à savoir pourquoi la France et le CNRS ne se sont intéressés que tardivement à la traduction automatique. La seconde concerne les raisons qui ont mené les Français à être quasiment les seuls au monde à poursuivre ces recherches après la parution du rapport de l'ALPAC (Automatic Language Processing Advisory Committee) en 19662. La traduction automatique : un enjeu scientifique, technique et économique sans précédent3 3L'idée d'automatiser des traductions à l'aide de machines électroniques naît en 1946, dès l'apparition des premières calculatrices électroniques, lorsque le britannique A. D. Booth, électronicien au Birbeck College de Londres, sollicite auprès de W. Weaver, mathématicien, cybernéticien et vice-président de la fondation Rockefeller, l'aide financière américaine pour construire le premier ordinateur britannique. Les premières expériences engagées en 1948 par A. D. Booth et R. H. Richens, relayées en 1949 par le Memorandum de W. Weaver, suscitèrent des recherches dans plusieurs universités américaines. Celles-ci furent rapidement évaluées par un premier rapport de Y. Bar-Hillel en 1951, suivi d'un colloque en 1952. 4En janvier 1954 eut lieu à New York la première démonstration sur ordinateur, une machine IBM 701, qui déclencha une accélération des recherches. Il s'agissait de la traduction de russe en anglais de phrases utilisant un vocabulaire de 250 mots et six règles de syntaxe mises au point par la Georgetown University. Bien que très limitée, cette démonstration fut montée en épingle par la presse et fit grande impression sur le public et certains scientifiques. 5Les premières expériences de traduction automatique étaient placées sous la pression d'une demande sociale croissante en traductions scientifiques et techniques, ce dont témoigne un rapport de l'Unesco de 1953. Cette pression, sous forme de demande de l'État soviétique en traductions multilingues, conduisit dès 1931 l'ingénieur soviétique Smirnov-Troianski à élaborer le premier projet de machine à traduire4. Aux Etats-Unis, en 1954, la demande se trouva accrue par les possibilités qu'offraient les calculatrices électroniques. Outre des intérêts strictement militaires et politiques liés à la période de guerre froide, la traduction des articles russes, notamment dans le domaine spatial, était jugée indispensable par les scientifiques américains. La démonstration IBM-Georgetown suscita le financement de nouveaux groupes aux Etats-Unis et en Grande-Bretagne grâce à des subventions de la NSF (National Science Foundation) et de la CIA. 6Les recherches en traduction automatique prennent alors une dimension mondiale5. En 1958, on dénombre une douzaine de groupes de traduction automatique aux Etats-Unis. Les Soviétiques s'engagent dans les recherches dès 1954, après que D. Y. Panov, directeur de l'Institut de mécanique de précision et de calcul mécanique de l'académie des sciences de Moscou, eut assisté à la démonstration de Georgetown-IBM. La recherche en traduction automatique est approuvée par le 20e congrès du PCUS en 1956 et prend d'emblée une très grande ampleur : dès 1958, le premier congrès de traduction automatique, organisé à Moscou, rassemble quelque 340 participants issus de 79 institutions différentes. De nombreux pays s'engagent ensuite dans ces recherches : le Japon en 1956, la Tchécoslovaquie en 1957, la Chine en 1958-59, l'Italie et la France en 1959, le Mexique en 1960, la Belgique en 1961. Les recherches restent peu développées en République fédérale d'Allemagne, en Suède et en Finlande. 7Partout ailleurs, les investissements en personnes et en moyens financiers furent considérables. Ils ouvrirent parfois la voie à un certain nombre de recherches dont l'objectif consistait avant tout à produire des réalisations automatisées très coûteuses pour des résultats difficilement évaluables. L'alarme est donnée dès 1958 par Y. Bar-Hillel, chargé à nouveau de l'évaluation des recherches. Son rapport de 1960 aboutit à la création de l'ALPAC en 1964. L'argumentation du rapport6, fondée sur des statistiques concernant le nombre de traducteurs par rapport aux besoins en traduction, visait à montrer l'inutilité de la traduction automatique. Seule restait nécessaire la fabrication d'outils d'aide à la traduction. Même si ce rapport fut très critiqué, souffrant notamment de la partialité de certains de ses rédacteurs, dont A. G. Oettinger d'Harvard et D. Hays de la Rand Corporation, engagés tous deux dans le courant de linguistique computationnelle qui, aux Etats-Unis, tira son épingle du jeu en bénéficiant du discrédit jeté sur la traduction automatique, les subventions furent arrêtées, et les groupes de recherche démantelés. La traduction automatique n'était plus une discipline ni même un domaine de recherche autonome. Partout dans le monde, les domaines de recherches se diversifièrent en intégrant la traduction automatique sous couvert d'autres thèmes : automatique documentaire, linguistique mathématique ou computationnelle, intelligence artificielle, avant de renaître une décennie plus tard dans un contexte scientifique, social et politique bien différent. Une des conséquences les plus frappantes de cette mise à l'index brutale de la traduction automatique comme objet scientifique à part entière a été d'astreindre les travaux ultérieurs à s'auto-évaluer de façon régulière, voire à s'inscrire dans une légitimité historique. De la traduction automatique à l'automatisation de la traduction : parcours historique Première période (1948-1960) : idées et expérimentations Les premières expériences de traduction automatique ont été engagées en 1948 en Grande-Bretagne et relayées en 1949 par le Memorandum de W. Weaver qui a suscité des recherches dans plusieurs universités américaines. En janvier 1954 eut lieu à New York la première démonstration sur ordinateur qui déclenche une accélération des recherches, qui prennent bientôt une dimension mondiale. Successivement, les Soviétiques, les Japonais, les Italiens, les Français et les Belges s'engagent dans ces recherches. Les recherches restent peu développées en RFA, en Suède et en Finlande. Les traductions concernent essentiellement le russe, pour des raisons militaires et politiques liées à la période de la guerre froide, mais aussi pour des raisons scientifiques. Partout, les investissements en personnes et en moyens financiers sont considérables. Ils ouvrent parfois la voie à un certain nombre de recherches dont l'objectif consiste avant tout à produire des réalisations automatisées opérationnelles très coûteuses pour des résultats difficilement évaluables. Pourtant, cette première période est foisonnante d'idées : méthodes probabilistes, langues; intermédiaires sémantiques, méthodes empiriques sur corpus, analyseurs syntaxiques automatiques. Apparaissent aussi les premiers outils pour le traitement automatique des langues, comme les dictionnaires électroniques. La plupart des idées à la fois théoriques et méthodologiques qui présideront au développement du traitement automatique des langues jusqu'à nos jours apparaissent pendant cette première période. Deuxième période (1960-1966) : l'analyse syntaxique Dans la période 1960-66, c'est l'analyse syntaxique qui est mise en avant comme la seule voie de recherche possible pour faire avancer la traduction automatique. En conséquence, la production en séries de traductions est reléguée à des temps futurs, ce qui va conduire, à terme, à la suppression des recherches en traduction automatique au profit de la seule linguistique computationnelle. Cette exclusivité de l'analyse syntaxique tient au développement des grammaires formelles, notamment de la grammaire catégorielle de Y. Bar-Hillel (1953) et de la grammaire générative de Chomsky (1955), facilement programmables dans des parseurs, mais aussi à la disparition des méthodes empiriques et probabilistes qui connurent plusieurs adversaires, dont tout particulièrement Y. Bar-Hillel et Chomsky. Quant aux méthodes sémantiques par langues intermédiaires, mises au point par des non-Américains, elles furent laissées à l'écart. Ainsi, lorsque le rapport de l 'ALPAC met fin au financement des recherches en traduction automatique aux Etats-Unis en 1966, en promouvant à la place la linguistique computationnelle, le terrain est tout préparé. Troisième période (1966-1980) : la survie et la « force brute » des grands systèmes Partout dans le monde, les recherches subirent un coup d'arrêt. Les systèmes qui ont survécu ou qui sont créés, ailleurs qu'aux Etats-Unis, pendant la quinzaine d'années ayant succédé à l’ALPAC, obéissent à des critères très différents de ceux de la période précédente. Il reste quelques systèmes de recherche (tel Ariane, développé par le GETA à partir de 1971, ou Susy, élaboré à l'université de Sarrebruck) qui ont surmonté la crise parce qu'ils étaient soutenus par de grands organismes de recherche, tel le CNRS, préoccupé seulement de façon secondaire par les aspects économiques de la traduction automatique. C'est le cas également des systèmes qui répondent à une volonté politique de construire des systèmes multilingues comme Eurotra (1977-1994) pour la communauté européenne. Aucun de ces différents systèmes n'a abouti à une industrialisation. Le deuxième groupe concerne les systèmes industrialisés qui « marchent ». Ce sont des systèmes qui répondent à un besoin interne de traductions, et qui, non destinées à être publiées, peuvent se contenter d'être de qualité médiocre. Le cas de Systran est exemplaire. A la fois le plus industrialisé et le plus diffusé, encore actuellement, il n'est fondé sur aucun modèle linguistique cohérent. Descendant d'un système mis au point dans les années 50 à la Georgetown University, il a été un des rares à avoir dépassé le stade de l'expérimentation et à fournir des traductions brutes, dans un domaine très spécialisé, à usage interne d'une entreprise, d'où son surnom de « force brute ». Le tournant japonais et l'automatisation de la communication (1980-1990) Le début des années 80 marque un tournant important. Le développement des micro-ordinateurs et des traitements de texte, leur usage démocratisé et la mondialisation de la consommation favorise l'apparition d'une nouvelle étape pour la traduction automatique, celle de la commercialisation. Il s'agit maintenant de traduire des modes d'emploi, des descriptifs de produits ou de machines, conditions indispensables pour leur commercialisation à l'échelon mondial. Le tournant est impulsé par les Japonais en 1982, avec l'annonce du projet « 5e génération » à l'ICOT (Institute for New Generation ComputerTechnology) et soutenu par le très puissant MITI (Japan's Ministry of International Trade and lndustry). L'enjeu ne concerne pas simplement des intérêts économiques à court terme mais il s'agit d'un pari à long terme sur une société future, fondée sur l'information. Se développent des systèmes interactifs de traduction automatique assistée par des humains, et des stations de travail de traduction assistée par ordinateur (TAO), offrant aux traducteurs des ensembles d'outils rendus utilisables par la micro-informatique et les logiciels de bureautique. Avec les années 1980, la traduction automatique n'est plus confinée à une utilisation « maison » mais fait partie de l'ingénierie linguistique, au même titre que les dictionnaires électroniques, les bases de données terminologiques et la génération de texte, qui constitue son application privilégiée notamment dans le domaine de la production de textes multilingues. Depuis 1990, le retour des méthodes empiriques Les années 1990 voient le renouveau de l'intérêt pour la traduction automatique aux États-Unis. Celui-ci est d'abord d'ordre économique : nécessité de traduire la documentation des concurrents japonais, baisse des coûts de l'informatique et hausse des coûts de la traduction surtout pour les langues à alphabets non latins comme le japonais. Ce renouveau reste toutefois limité et se caractérise par la mise au point de systèmes utilisant des stratégies et des techniques mixtes. Des modules « intelligents » et des modules probabilistes viennent compléter les modules d'analyse linguistique plus traditionnels. Mais ces systèmes sont loin de pouvoir être commercialisés et le clivage entre stations d'aide à la traduction et systèmes de traduction s'accentue. Mais surtout, une des caractéristiques des années 1990, c'est le retour des approches empiriques et du traitement statistique de grands corpus. Ce renouveau, suscité par le succès des méthodes stochastiques dans le traitement du signal et la reconnaissance de la parole dans les années 1970, a bénéficié de la mise à disposition de corpus de données textuelles importants grâce aux nouvelles possibilités de traitement des ordinateurs et aux efforts de normalisation des textes. Plusieurs méthodes de traduction automatique sont fondées sur les mémoires de traduction utilisant des corpus bilingues alignés, tels le corpus anglais-français des actes parlementaires canadiens, les Canadian Hansards. L'alignement, c'est-à-dire la mise en correspondance des phrases, est effectué à partir de critères exclusivement statistiques utilisant le fait que les phrases longues dans la langue source ont tendance à être traduites par des phrases longues dans la langue cible et que les phrases courtes ont tendance à être traduites par des phrases courtes. A l'heure actuelle, on constate une certaine déconvenue vis-à-vis de la traduction automatique. Certains déplorent le peu de progrès accomplis depuis les années 1960, en constatant que les systèmes se sont beaucoup améliorés sur le plan de la vitesse mais peu sur le plan de la qualité, et que la machine produit des traductions de niveau bien inférieur à celles produites par des traducteurs humains. Un second constat d'échec concerne l'incapacité de la linguistique à produire des systèmes performants de traduction automatique. Tout au plus les systèmes fondés sur des modèles linguistiques puissants servent-ils de bancs d'essai aux théories linguistiques computationnelles. Que penser également de ces nouveaux systèmes, fondés sur des méthodes probabilistes, qui se prévalent de ne pas utiliser de savoir linguistique ? On aboutit actuellement à un double paradoxe : on n'exige plus des systèmes de traduction automatique, fondés linguistiquement et qui ont reconquis leur légitimité dans la linguistique computationnelle, qu'ils fournissent des traductions ; quant aux stations d'aide aux traducteurs, elles n'utilisent les systèmes de traduction automatique, quand ils existent, que comme un outil parmi d'autres. Autrement dit, on en arrive à se demander si l'automatisation de la traduction a encore réellement besoin de la traduction automatique. Le retard français L'informatique7 en France à la fin des années 1950 8Dans les années 1950, on note une nette prédominance du calcul analogique sur le calcul numérique, qui en était encore à ses balbutiements. La France est très en retard. En 1954, il n'existait aucune machine numérique en France, alors que la Grande-Bretagne en possédait deux et l'Allemagne une. 9Ce retard tient à un ensemble de raisons. Henri Boucher8 raconte que, de 1945 à 1951, l'informatique n'était aux États-Unis qu'une simple expérimentation dont la renommée n'avait pas atteint la France. Dans les cours de l'École polytechnique, de l'ENSGM, ou de Sup. Aero (écoles formant les militaires), aucune allusion n'était faite à ces recherches. Aussi A. Sestier, qui prendra la direction du CETAP, fut-il un des rares, dans l'armement, à s'intéresser au calcul numérique. 10Les diverses compagnies accoutumées à travailler avec la Défense sur les problèmes d'électronique et de mécanique de précision refusèrent toutes de prendre un risque technologique en se lançant dans la construction d'une machine française. Se reconnaissant incompétentes tant en architecture qu'en composants, elles proposèrent de s'associer à des sociétés américaines par le biais de licences. Toutefois, la Défense, particulièrement soucieuse du secret de ses études, ne donna pas suite à ces propositions. La seule société qui ait accepté de mener des études technologiques sans recourir à une compétence étrangère a été IBM France dont les prix étaient par ailleurs inférieurs à toutes les propositions des sociétés françaises. Alors que l'armée et l'industrie françaises ne manifestèrent qu'un intérêt frileux pour les calculatrices électroniques, et que l'Université fit preuve d'une très grande hostilité a priori à l'égard des machines et du traitement de l'information, le CNRS fut le seul, par le biais de l'Institut Blaise-Pascal, à se lancer dans un projet de construction de machine électronique. Hélas, ce projet n'aboutira pas. Il s'agissait de la fameuse « affaire Couffignal » et de la « non-construction en France du premier ordinateur » étudiée par Girolamo Ramunni9. L'Institut Blaise-Pascal10 11Afin de faire face aux besoins des laboratoires de recherche français en matière de calcul et pour développer la construction de calculateurs électroniques français, le CNRS crée en 1946 l'institut Blaise-Pascal (IBP) sous la supervision de Joseph Perès, alors directeur adjoint pour les sciences au CNRS (de 1945 à 1951). L'IBP regroupe deux laboratoires existants : le Laboratoire de calcul analogique, dirigé par Lucien Malavard, et le Laboratoire de calcul mécanique, dirigé par Louis Couffignal. 12En 1947, le CNRS confie à L. Couffignal le soin de construire la première calculatrice électronique française mais, en raison d'une erreur de conception, la machine n'est pas techniquement viable et le projet est abandonné en 1952. Après ces précieuses années perdues, le CNRS décide finalement, en 1955, d'acheter une machine anglaise, une Elliott 402, pour équiper l'Institut Blaise-Pascal. La première machine française est donc anglaise. 13À son arrivée comme directeur du CNRS en 1957 (il le restera jusqu'en 1962), Jean Coulomb met fin aux fonctions de L. Couffignal qui est remplacé par René de Possel (1905-1974). C'est à l'IBP que sont créés le Centre d'étude pour la traduction automatique (CETA), en décembre 1959, puis la Section d'automatique documentaire (SAD), le 20 décembre 1960, sous la direction de Jean-Claude Gardin. Les machines et les hommes 14En 1959, il n'existe que huit machines en tout et pour tout pour le CNRS et l'Université. L'année 1959 marque toutefois un tournant. On assiste alors à un bond décisif dans le développement de l'équipement des universités en calculateurs électroniques grâce à la décision, soutenue par une politique gaullienne favorisant la recherche, de développer prioritairement trois grands centres informatiques à Paris, Grenoble, et Toulouse. C'est donc là où sont les machines, Paris et Grenoble, que sont créés les centres de traduction automatique. 15Selon le projet préparatoire au rapport de conjoncture 1960 du CNRS, le retard français en informatique ne tient pas seulement au manque de matériel. Il tient aussi à une pénurie générale de personnel spécialisé. Il est difficile d'intéresser et de former les ingénieurs au calcul numérique. Le désintérêt est lié au fait que le calcul électronique, considéré comme une technique subalterne, n'est pris au sérieux ni par les universitaires ni par les entreprises. Par ailleurs, il faut assurer la reconversion à la programmation des calculateurs travaillant sur des machines de bureau. Dans le cas du CNRS, précise ce rapport, la situation est particulièrement grave : il est devenu impossible de recruter des personnes qualifiées auxquelles l'industrie privée offre des situations beaucoup plus avantageuses. La cybernétique 16On peut invoquer un autre élément pour expliquer le retard français en matière de traduction automatique. On a vu que c'est le Mémorandum de W. Weaver, rédigé en 1949, qui a suscité les premières expériences de traduction automatique aux États-Unis et en Grande-Bretagne. Or W. Weaver est aussi vice-président de la fondation Rockefeller qui a financé tous les colloques internationaux du CNRS (38 plus précisément), de 1945 à 1955. Un de ces colloques aurait pu traiter de la traduction automatique et susciter un intérêt pour ce domaine en France. Il s'agissait d'un colloque organisé par L. Couffignal à l'IBP, en janvier 1951, et intitulé « Les machines à calculer et la pensée humaine ». Les discussions ont porté sur la cybernétique et sur les machines à calculer numérique11 mais, malgré la présence de A. D. Booth, un des pionniers britanniques de la traduction automatique, cette question n'a pas été abordée et ce domaine ne semble pas avoir trouvé d'écho en France. La linguistique au CNRS en 1959 17Les linguistes français ne manifestent pas d'intérêt spécifique pour les langages formels, qui, aux États-Unis, sont développés parallèlement aux expériences de traduction automatique, souvent au sein même de ses centres. La linguistique, représentée au CNRS par deux sections du Comité national, « linguistique et philologie classique » et « linguistique et philologie non classique », est orientée essentiellement vers la philologie, l'enseignement des langues et les prescriptions normatives12. Émile Delavenay, l'Unesco et l'ATALA La préhistoire de la traduction automatique en France : le rôle d'É. Delavenay et de l'Unesco 18A la fin des années 1950, la direction du CNRS n'est pas sans avoir une idée, au moins sommaire, sur les expériences en traduction automatique, du moins sur celles qui sont effectuées aux États-Unis. Il semble qu'elle en ait été informée en 1956, lorsque Gaston Dupouy, directeur du CNRS (de 1950 à 1957), est convié, par l'intermédiaire d'un militaire, le général Brison, à une réunion internationale « sur les machines à traduction », organisée par Léon Dostert, responsable du groupe de traduction automatique de Georgetown University, le 20 octobre 1956 au MIT. Il en informe le linguiste Michel Lejeune (1907-2000)13, directeur adjoint pour les lettres et les sciences humaines au CNRS (de 1955 à 1963), lequel ne peut pas s'y rendre. 19Un an après, en octobre 1957, l'attention de M. Lejeune est de nouveau attirée sur la traduction automatique par Henri Laugier, professeur à la faculté des sciences, qui lui transmet une lettre exposant l'intérêt de monter un groupe de ce type en France. Cette lettre est signée d'É. Delavenay, directeur du service des documents et des publications de l'Unesco. 20Né en 1905, angliciste de formation et ancien normalien14, É. Delavenay, par ses fonctions jusqu'en 1950 de responsable des services de traduction et d'édition à l'Organisation des nations unies (ONU) à New York, a été amené à s'intéresser de très près aux problèmes de traduction sur le plan international. Il n'est donc pas étonnant qu'il ait été l'instigateur de la traduction automatique en France. 21Finalement, en novembre 1957, M. Lejeune et É. Delavenay se rencontrent. Entre-temps, M. Lejeune a fait la connaissance d'Erwin Reifler, sinologue et responsable du groupe de traduction automatique de l'université de Washington, lors du 8e congrès de linguistique d'Oslo. À l'issue de cette entrevue, É. Delavenay convoque en février et mars 1958 deux réunions sur la « machine à traduire » à l'Institut de linguistique de la Sorbonne en collaboration avec André Martinet. À cette réunion, présidée par Benveniste, assistent M. Lejeune, les mathématiciens Georges Guilbaud, Benoît Mandelbrot, Marcel-Paul Schützenberger, Clemens Heller de la VIe section de l'École pratique des hautes études, et Louis Ziéglé. Dans ses mémoires15, É. Delavenay évoque la faible réceptivité des linguistes, et des universitaires en général, à l'idée de fabriquer une machine à traduire en France, et ces réunions ne semblent pas avoir abouti à un projet concret. 22Parallèlement, autour de E. Delavenay, se constitue un groupe de travail sur la traduction automatique qui se tient au courant des travaux américains, britanniques et russes. Ce groupe prend le nom de « groupe international d'études sur la traduction automatique » et se réunit régulièrement à l'Unesco. II sera à l'origine de l'ATALA. 23Bien que les activités de ce groupe ne soient pas directement liées aux fonctions d'É. Delavenay à l'Unesco, le rôle de cette institution n'est pas négligeable. Les problèmes de traductions scientifiques et techniques l'intéressaient de très près. L'Unesco a ainsi produit deux rapports sur la question. Le premier, datant de 194916, est consacré aux dictionnaires terminologiques spécialisés ; le second, datant de 1953, dresse un état des lieux des besoins croissants en traductions scientifiques et techniques dans le monde, faisant état du manque de formation des traducteurs et du coût trop grand des traductions. 24Par ailleurs, la création de l'ATALA, en septembre 1959, a bénéficié du succès du premier congrès de l'IFIP (International Federation for Information Processing) organisé par l'Unesco, à Paris, en juin 1959, où sont présentées de nombreuses communications sur la traduction automatique. Enfin, c'est grâce à É. Delavenay et Michael Corbe, tous deux de l'Unesco, qu'A. Sestier, futur directeur du CETAP, prend connaissance des recherches en traduction automatique à l'étranger. 25É. Delavenay continue à jouer un rôle important dans le développement de cette discipline en France. Il est en relation avec de nombreux groupes anglais et américains : le groupe de Locke au MIT, le groupe de Reifler à l'université de Washington, et le groupe de Cambridge en Grande-Bretagne. Président fondateur de l'ATALA jusqu'en 1965, auteur d'un Que sais-je ? intitulé La Machine à traduire, et d'une bibliographie sur la traduction automatique17, il fera partie du Conseil scientifique du CETA et de la section 22 « Linguistique générale, langues modernes et littérature comparée » du Comité national. L'ATALA18 et le centre Favard 26Les membres fondateurs de l'ATALA, présidée par É. Delavenay, sont des mathématiciens, des linguistes, des ingénieurs, des traducteurs, des documentalistes. L'ATALA se considère moins comme un organisme de recherches que comme un forum de discussion sur la traduction automatique, sur la documentation automatique et la linguistique appliquée ; ce dont témoigne sa revue créée en avril 1960, la Traduction automatique, fabriquée alternativement par les compagnies Bull et IBM, un des lieux de pénétration en France de la linguistique américaine et des langages formels. 27Signalons également, en mars 1960, la création du séminaire de linguistique quantitative dirigé par Jean Favard, à l'Institut Henri-Poincaré, qui constitue un des lieux importants de confrontation entre linguistique et mathématiques. Un groupe fondé par le ministère de la Défense après l'aventure de Suez pour étudier le codage des messages à l'aide de modèles statistiques est à l'origine de ce séminaire. Certains de ses membres ont travaillé pour le chiffre pendant la guerre; c'est le cas de René Moreau, alors capitaine de gendarmerie et qui deviendra le directeur du centre scientifique d'IBM. Dans ce séminaire est diffusé un enseignement de linguistique pour mathématiciens (André Martinet et Jean Dubois) et un enseignement pour non-spécialistes de mathématiques, logique mathématique et théorie de l'information (R. Moreau et Daniel Hérault). En 1962-1963, un cours supplémentaire sur la théorie des langages est assuré par J. Pitrat et Maurice Cross. Création du CETA 28En 1959, l'intérêt du CNRS pour les recherches en traduction automatique se confirme. Dans le rapport de conjoncture de 1959 du CNRS, elle figure parmi les sujets prioritaires que se donne la commission de mathématiques générales et appliquées, présidée par le doyen Pérès, en collaboration avec la commission de physique théorique et de théorie des probabilités. Celle-ci fait état d'une demande en traduction automatique du russe, en documentation automatique, en analyse numérique et en automatisme. 29À cette fin, il faut équiper en calculateurs électroniques deux ou trois super-centres, Paris, Grenoble et Toulouse, avec des Gamma 60 ou des IBM 704, centres auxquels est confiée l'étude des problèmes prioritaires. 30Par ailleurs, la Direction de l'armement, alertée par le général Grossin, alors directeur du SDEC (Service de documentation et de contre-espionnage), commence à s'intéresser à la traduction automatique et se montre disposée à y consacrer une partie de son budget de recherche. 31Comme pour la plupart des commanditaires américains, les objectifs sont en partie liés à l'armée et au contre-espionnage. Et l'enjeu de la traduction automatique consiste essentiellement dans la traduction du russe d'articles scientifiques et techniques soviétiques19. 32Le CETA est finalement créé le 24 décembre 1959 par une convention entre le CNRS, la DEFA (Direction des études et fabrications d'armement) et le CASDEN (Comité d'action scientifique de défense du centre d'exploitation scientifique et technique) du ministère de la Défense20.). Coulomb représente le CNRS, le général Guérin, le CASDEN, et le général Sorlet, la DEFA. Il est créé, sous la supervision du doyen Pérès, au sein du Laboratoire de calcul numérique de l'Institut Blaise-Pascal du CNRS. Il a pour mission « l'étude et la conception d'une méthode pour la traduction automatique notamment du russe en français et l'étude de l'organisation générale d'une machine pour cette fin ». 33La création du CETA à l'Institut Blaise-Pascal associe donc étroitement la traduction automatique au développement du calcul numérique et des calculateurs électroniques ainsi qu'à la documentation automatique. Traduction automatique et documentation automatique sont toutes deux sous le contrôle des mathématiques appliquées et dépendent de la section « Mécanique générale et mathématiques appliquées » du Comité national. Même si les équipes sont composées de spécialistes des diverses disciplines intéressées, les mathématiciens appliqués considèrent qu'ils sont les seuls à pouvoir animer la recherche, dans la mesure où ils sont les seuls capables d'assurer le suivi des questions de programmation et de structure des machines. 34Le directeur du laboratoire de calcul numérique, R. de Possel, et son sous-directeur, André Lentin, par ailleurs membre fondateur de l'ATALA, joueront un rôle important dans l'interaction entre mathématiques appliquées, langages formels et linguistique. Ils sont tous deux membres du conseil scientifique du CETA. Le CETAP 35L'armée est, à plusieurs titres, partie prenante dans l'affaire. Outre l'aide du CASDEN, qui assure pour moitié le financement de l'ensemble du CETA, le CETAP bénéficie des locaux du Laboratoire central de l'armement (LCA) au Fort de Montrouge à Arcueil. Son directeur, A. Sestier, né en 1920, ancien élève de l'École polytechnique, est ingénieur militaire en chef, chef de la section des machines à calculer du LCA. L'armée est très présente dans le comité de direction du CETA: outre des représentants du CASDEN comme le général Guérin, et du LCA comme le général Sorlet, le comité de direction comprend l'ingénieur général Ollier représentant le SDEC21. 36Les ingénieurs et le personnel technico-administratif appartiennent au LCA Les deux ingénieurs à plein temps du CETAP sont Lucien Dupuis, ingénieur civil à la DEFA, qui par ailleurs connaît le russe, et M. Gross, né en 1934, ancien élève de l'École polytechnique et ingénieur de l'École nationale supérieure de l'armement. Celui-ci est attaché au service des machines à calculer du LCA. 37Les linguistes, sept slavistes et deux germanistes, sont rémunérés par le CNRS. Cependant, à l'exception d'Yves Gentilhomme, les russisants engagés par le CETAP ne sont pas des chercheurs, ce sont des agrégés de russe et parfois même de simples locuteurs natifs du russe. On dispose sur ce point du témoignage d'une des linguistes russes engagés au CETAP sous la direction d'Y. Gentilhomme. Arrivée en France à 18 ans en 1957 avec un « baccalauréat » russe qui comprenait une légère formation paramilitaire, elle est affectée à la traduction de listes de termes militaires. Le CETAG 38Grenoble, on l'a dit, est l'un des principaux lieux d'implantation de l'informatique en France. C'est à Grenoble qu'est fondée l'AFCAL (Association française de calcul) en 1957, et Kuntzmann y crée la revue Chiffres en 1958. 39Il n'est donc pas étonnant que la seconde section du CETA soit créée à Grenoble. Et c'est au laboratoire de calcul de la faculté des sciences, avec le soutien du professeur Kuntzmann qu'est créé le CETAG sous la direction de Bernard Vauquois. 40B. Vauquois (1929-1985) est d'abord chercheur au CNRS de 1952 à 1958 en radioastronomie au Laboratoire d'astronomie à l'Institut d'astrophysique de l'observatoire de Meudon, après avoir effectué des études de mathématiques, de physique et d'astronomie. Dès 1957, son programme de recherche porte aussi sur les méthodes appliquées à la physique du point de vue des calculateurs électroniques et il enseigne la programmation aux physiciens. Ce double intérêt pour l'astrophysique et les calculateurs électroniques se reflète dans le sujet de thèse et dans celui pour la thèse complémentaire en sciences physiques qu'il soutient en 1958 : (i) étude de la composante lentement variable du rayonnement radioélectrique solaire, (ii) étude de la théorie des machines (machine de Turing et von Neumann). Il est nommé maître de conférences en mathématiques appliquées à la faculté des sciences de Grenoble en octobre 1958. 41Le groupe de réflexion sur la traduction automatique, qui deviendra le CETAG, est composé de mathématiciens et d'ingénieurs mais manque cruellement de linguistes, notamment de russisants. B. Vauquois, dans le rapport pour le conseil scientifique du 20 février 1960, souligne le gros atout du groupe : l'accès à la machine Gamma et à tambour magnétique. 42Après une demande spécifique en personnels linguistes effectuée par B. Vauquois en mai 1960 auprès de la direction du CNRS, le CETAG comprend, à la fin de la même année, quatre spécialistes de russe, une technicienne germaniste, et une technicienne spécialiste de japonais. En ce qui concerne les informaticiens, le directeur de la programmation, l'ingénieur Jean Veyrunes, disparu prématurément en 1966, a sous ses ordres deux programmeurs. Le groupe compte également deux ingénieurs mathématiciens préparant un doctorat de mathématiques appliquées. Le rapport Sestier 43C'est A. Sestier, le directeur du CETAP qui a rédigé, en date du 23 novembre 1959, le rapport « Comment doit être organisé à l'échelle française l'effort pour la traduction automatique », rapport qui va servir de base à la définition des orientations de cette discipline en France. C'est une des raisons pour lesquelles les deux groupes, bien que recevant des crédits équivalents, ne sont pas à égalité au départ. De plus, le CETAP a pris de l'avance puisqu'en tant que groupe du LCA, il travaille sur l'allemand depuis 1958 alors que le CETAG vient tout juste de commencer les recherches en octobre 1959. Ce déséquilibre, on va le voir, sera à la source d'un certain nombre de malentendus entre les deux centres. Un centre de traduction en séries 44Selon le rapport Sestier, le CETA doit poursuivre un objectif pratique. D'ici un délai d'environ cinq ans, le CETA a pour vocation d'être à la fois une usine de production en série de versions françaises de russe scientifique et technique, un centre de recherches appliquées où des équipes constituées prépareront la traduction automatique d'autres langues, et un centre de recherches fondamentales en linguistique sans objectif immédiat de traduction automatique, mais avec l'espoir que les résultats de celle-ci, complétés par des études indépendantes, pourront être utiles à des linguistes pour élaborer ou contrôler des théories. 45Pour A. Sestier, la production en série de traductions est donc au premier plan et le CETA devra offrir un certain nombre de prestations : traductions grossières et études sur l'indexation et l'extraction automatique susceptibles d'assurer à terme, d'ici cinq à dix ans, l'autofinancement des recherches22. A. Sestier propose d'ailleurs le nom de « Centre d'études et d'exécution de traductions automatiques » qui souligne sa vocation de réponse à la demande sociale. 46A. Sestier conclut son rapport par une mise en garde concernant le risque de gaspiller les efforts et les crédits en ne faisant que redécouvrir ce qui a déjà été trouvé aux États-Unis et en Union soviétique. Il faut noter que le rapport de conjoncture du CNRS (1959-60) reprend à son compte l'idée que, dans un délai de cinq à dix ans, on aura dépassé le stade de la recherche pour produire des traductions en série. Technologie linguistique et ingénieurs linguistes 47La méthode préconisée par le rapport Sestier est axée sur l'analyse de la langue source, c'est-à-dire le russe. Une lettre de A. Sestier du 18 octobre 1960 à Éric de Grolier, directeur du Centre français d'échange et de documentation technique à Milan, expose la méthode qu'il préconise : la traduction automatique peut se passer de théorie parfaite ; ce qu'il lui faut, c'est une « technologie linguistique ». Comme É. Delavenay23, A. Sestier parle de machine à traduire française. 48Cette technologie linguistique doit être le fondement scientifique de toute traduction automatique raisonnablement correcte, même si elle ne vise pas l'idéal bien lointain de la FAHQMT (Full Automatic High Quality Machine Translation) préconisée au début des années 1950 par certains chercheurs américains. Les recherches doivent s'attacher dans un premier temps, moins à construire la morphologie, la syntaxe ou la sémantique de telle ou telle langue particulière, qu'à dégager la structure que doivent avoir ces disciplines, en tant que destinées à servir de base à la traduction automatique; et cela par des amorces d'études comparatives de diverses langues. 49Dans son rapport, A. Sestier reprend les propositions qu'il a faites dans son article, « La traduction automatique des textes écrits scientifiques et techniques d'un langage dans un autre », publié en 1959. 50Les outils habituels de la traduction manuelle, dictionnaires, grammaires et syntaxes sous leur forme usuelle, sont inadéquats. La traduction entre langues naturelles doit s'inspirer de la traduction entre langages artificiels et des méthodes de programmation automatique, et la construction d'une grammaire formelle de la langue source est nécessaire. Comme aucun procédé n'a jusqu'à présent permis de construire une telle grammaire pour aucune langue naturelle et qu'on ne peut attendre qu'elle soit construite pour commencer les recherches en traduction automatique, force est de rechercher des procédés plus rapides pour construire les grammaires spécifiques nécessaires. 51C'est l'objectif de la technologie linguistique. Celle-ci consiste à inventorier et à classer des faits linguistiques, syntaxiques, morphologiques et lexicaux, à partir d'un corpus de textes à traduire. L'exécution des tâches matérielles exigées par ce travail de classification ne peut être menée à bien dans des délais raisonnables qu'avec l'aide de calculateurs automatiques. De plus, cette méthode de technologie linguistique demande une organisation particulière du travail qui suppose trois groupes d'intervenants : les théoriciens (les linguistes savants), les expérimentateurs (les linguistes exécutants) et les consultants (les traducteurs scientifiques et techniques). 52Cette ingénierie linguistique avant l'heure trouvera un écho dans les rapports des sections de linguistique du CNRS (rapport de conjoncture du CNRS de 1963-1964) qui déclarent que la traduction automatique, comme la documentation automatique, arrivée au stade de l'exploitation rentable, doit faire appel à des « ingénieurs linguistes » comme on dit des « ingénieurs chimistes ». Le rapport signale toutefois que le problème principal, pour le développement de la linguistique en France, reste la pénurie de collaborateurs qui soient pourvus d'une formation linguistique « fondamentale », La répartition des tâches : un problème de machines ? 53Le rapport Sestier prévoit une répartition des tâches entre les deux équipes, parisienne et grenobloise, répartition fondée officiellement sur les différences de matériel et les recherches entreprises avant le 1^er janvier 1960. Selon cette répartition, Grenoble est chargée de la morphologie, considérée comme plus facile et plus rapide à réaliser, et Paris, dont l'expérience est plus grande, se charge de la syntaxe. Puisque sa tâche est « simple », l'équipe de Grenoble décide de s'attaquer aussi aux problèmes de polysémie lexicale. 54Cette décision est décrétée provisoire et fluctuante dès la première réunion du conseil scientifique le 20 février 1960. Martinet et Benveniste, qui en font partie, critiquent vivement cette division entre morphologie et syntaxe. Celle-ci n'est pas pertinente, disent-ils, dès lors qu'il s'agit de comparer deux structures : il y aurait intérêt à partir d'une solution moins graphique et plus linguistique, c'est-à-dire de l'autonomie du syntagme, nominal et verbal. 55Cette belle répartition va de plus se trouver très rapidement contrariée. Les prétextes en sont les différences de machines autant que les différences de méthodes. 56Selon A. Sestier, le groupe de Grenoble développe un système morphologique adaptable uniquement sur machine binaire, donc strictement inutilisable pour le CETAP qui dispose d'une machine décimale de taille mémoire réduite. Par ailleurs, le système du CETAG lui paraît inutilement compliqué. Les Parisiens décident donc d'affronter directement l'analyse morphologique. A. Sestier insiste toutefois sur l'harmonisation indispensable des deux systèmes d'analyse morphologique développés indépendamment par les deux équipes. 57Pour leur part, dans leur projet du 12 décembre 1960, les membres du CETAG montrent leur intention de faire aussi des recherches en syntaxe sur la traduction russe-français, japonais-français et allemand-français, en adoptant principalement le modèle que Sydney Lamb a développé au sein du groupe de.l'université de Berkeley. 58Sur la question des calculateurs utilisés, il y a un déséquilibre certain entre les équipes. Les programmes de traduction automatique exigent des machines à grande capacité mémoire. L'avantage est cette fois-ci au CETAG qui ne dispose au début que d'une machine Bull, binaire-décimale à mémoire-tambour de grande capacité, mais qui pourra dès la fin 1960 utiliser le GAMMA 60 et l'IBM 7090 du Centre de calcul de Grenoble, qui comptent parmi les machines les plus puissantes de l'époque. 59Le CETAP ne peut utiliser qu'une IBM 650, machine décimale à 2 000 mots avec bandes magnétiques 727. A. Sestier adresse différents rapports au CNRS sur l'insuffisance des machines. Plusieurs solutions sont envisagées. Le comité de direction du 17 décembre 1960 décide d'examiner les possibilités offertes par la machine Mark II mise au point par l'US Air Force en collaboration avec le groupe de traduction automatique de Washington. Une autre solution consiste à envisager la construction d'une machine à traduire spécifiquement française en donnant des directives aux constructeurs IBM et Bull. 60Dans un rapport de novembre 1960, A. Sestier préconise l'utilisation de Mark II, machine spécifiquement dédiée à la traduction automatique, intégrant une mémoire photoscopique24 de grande capacité à un calculateur IBM classique. B. Vauquois, dans un rapport de janvier 1961, se montre moins enthousiaste à l'égard de la machine Mark II qui, certes, présente l'avantage d'une consultation rapide de dictionnaires, mais qui est très peu adaptée à l'analyse syntaxique et sémantique, dans la mesure où elle ne peut dépasser le stade de l'étude de mots consécutifs qu'au prix d'énormes difficultés alors que le calculateur classique offre des possibilités immédiates. 61Il ne semble pas que le projet d'utilisation de Mark II ait abouti, malgré la visite qu'ont effectuée A. Sestier et B. Vauquois au centre de l'US Air Force à Rome dans l'État de New York, lors de leur mission aux États-Unis de mai-juin 1961. Même si la solution adoptée provisoirement a été de renforcer les machines existantes (la IBM 650 a été complétée en mai 1961 par des disques magnétiques 355 à très grande capacité mais d'accès relativement lent), l'idée de construire une machine à traduire française n'est pas abandonnée. La dissolution du CETAP 62L'abandon du travail en linguistique fondamentale, puis de l'idée qu'il suffit d'une technologie linguistique pour réaliser des dispositifs fonctionnels de traduction automatique, va progressivement conduire A. Sestier à démissionner et à dissoudre le CETAP en octobre 1962. L'abandon de la recherche en syntaxe 63La position d'A. Sestier se radicalise lorsqu'en automne 1960, le CETAP décide d'arrêter les recherches sur la syntaxe « à la main », c'est-à-dire selon la méthode traditionnelle des linguistes, en raison de son rendement nécessairement faible, pour se consacrer à la mise au point d'outillage informatique pour linguistes. Par ailleurs, tous les groupes étrangers travaillant sur la syntaxe, selon lui, se heurtent aux mêmes difficultés théoriques, quant à la validité des modèles utilisés. « À la réflexion, rien de bien étonnant à cela : la linguistique est une science aussi ancienne que les mathématiques (4 000 ans au moins). Si les spécialistes les plus chevronnés continuent à discuter de ses principes mêmes, c'est sans doute qu'en quelques mois, on ne peut, avec une équipe de jeunes chercheurs tout juste sortie de sa phase d'organisation, faire plus que des générations de savants, même en entreprenant ces recherches avec des idées de mathématicien ou d'ingénieur, bref, en essayant d'examiner les faits linguistiques sous un angle neuf. C'est ce que prévoyaient, dès le départ, les maîtres de la linguistique française qui nous ont encouragés et conseillés, non sans quelque secret amusement de notre folle entreprise. » Les linguistes français qui s'intéressent à la traduction automatique 64Qui sont ces maîtres de la linguistique française mentionnés par A. Sestier ? Les linguistes français sont présents dans les instances d'évaluation du CETA mais ne participent pas directement aux recherches. Outre Martinet, directeur de recherche d'Y. Gentilhomme, et Benveniste, le conseil scientifique du CETA comprenait en 1960 M. Lejeune, Marcel Cohen, Georges Gougenheim, Bernard Quemada et deux slavistes, Jean Train et Marc Vey. Plus tard, Jean Fourquet en fera partie. Au CNRS, la traduction automatique est mentionnée, dans les années 1963-1964, comme appartenant à la linguistique appliquée et est encouragée à ce titre. Alors que le cercle de la linguistique officielle, la SLP (Société de linguistique de Paris), se méfie de cette « linguistique pour ingénieurs » et n'ouvre les pages de son bulletin qu'à quelques comptes rendus de Georges Mounin sur l'état de la traduction automatique aux États-Unis et à ceux des slavistes, comme René L'Hermitte sur la situation en Union soviétique et dans les pays de l'Est, c'est au sein de l'ATALA que se retrouvent les linguistes qui s'intéressent à la traduction automatique. G. Gougenheim et M. Cohen y sont particulièrement actifs. A. Martinet, A. Culioli, B. Pottier, David Cohen et G. Mounin sont aussi très tôt membres de l'ATALA. La traduction automatique permettait, selon eux, de poser de véritables questions linguistiques. 65Notons que la linguistique en France est aussi marquée pendant cette période par la mécanisation de la lexicologie qui en assure le renouveau et que la traduction automatique n'est pas le seul lieu de confrontation entre linguistique et informatique. En 1959 est créé à Besançon le Laboratoire d'analyse lexicologique sous la direction de B. Quemada. Le plan définitif de l'organisation d'un Trésor ou grand Dictionnaire général historique de la langue française est approuvé par la section de linguistique générale et des études littéraires en novembre 1960, servant de base à la création du Trésor de la langue française (TLF). Le groupe de traduction automatique de Nancy 66Le groupe de Nancy est toutefois le seul groupe de traduction automatique dirigé par des linguistes. Il est créé lors d'une réunion organisée, le 25 mai 1960, à la faculté des lettres de Nancy par le doyen Schneider et A. Culioli, alors professeur dans cette même faculté, à laquelle participent, outre B. Pottier et G. Bourquin, É. Delavenay, le président de l'ATALA, A. Martinet, et M. Legras, directeur de l'Institut de calcul automatique de l'université qui met à la disposition du groupe une machine IBM 650. 67Au départ, le groupe comprend deux linguistes, B. Pottier, professeur à la faculté des lettres de Strasbourg, et G. Bourquin, chargé d'enseignement à la faculté des lettres de Nancy. Avec le soutien du doyen Schneider et du recteur Imbs, le groupe de Nancy obtient d'être examiné par le CNRS lors du comité de direction du CETA dès janvier 1962 ; en juillet 63, il reçoit deux collaborateurs techniques supplémentaires. Le groupe de Nancy se donne comme langue source l'anglais et comme langues cibles le français et l'espagnol, choix, dit-il, qui se justifie par un intérêt pratique, la traduction d'ouvrages scientifiques. Sa méthode se présente comme un moyen terme entre la méthode empirique (la traduction mot à mot) et la formalisation mathématique, avec comme préoccupation essentielle l'étude des problèmes linguistiques posés par la traduction automatique. La démission d'A. Sestier 68Plusieurs événements accélèrent le processus de démission d'A. Sestier. L'année 1962 correspond au moment où le financement du CETA par l'armée se trouve compromis par le remplacement du CASDEN par le CASD, dépourvu de ressources propres. C. de Gaulle avait alors un compte à régler avec les militaires et les a dépossédés de la recherche au profit de civils. On est en effet à la fin de la guerre d'Algérie et le putsch d'Alger est loin d'être oublié25. 69Malgré un dossier circonstancié et l'appui du CNRS, la demande de subvention effectuée par A. Sestier auprès de l'OTAN26 n'aboutit pas. La DRME (Délégation ministérielle pour l'armement, Direction des recherches et moyens d'essai) prend le relais mais pour un quart seulement du financement, le CNRS continuant à financer le CETA à cinquante pour-cent pour un budget total d'environ un million de francs. Le CNRS fait alors appel à un certain nombre de ministères afin de financer les vingt-cinq pour-cent restants. Lors d'une réunion regroupant en mai 1962 la direction du CNRS et les représentants des différents ministères concernés, ceux-ci se déclarent favorables aux recherches en traduction automatique, mais exposent leurs difficultés à disposer des crédits demandés. Quatre-vingt-dix mille francs seulement seront réunis à l'issue de cette réunion; le SDEC se montrant le plus généreux en accordant cinquante mille francs. 70À l'occasion de ces difficultés de financement, on voit apparaître, dans les réunions du CNRS chargées de l'évaluation du CETA, la question de la demande sociale en traductions Bien que constituant un élément important du rapport Sestier, préalable à la création du CETA et figurant dans ses statuts au travers de la création d'un centre de production de traductions devant assurer l'autofinancement du centre, ce point était pourtant jusqu'alors peu présent dans les discussions. C'est lors d'une réunion de juin 1962 qu'est évoquée la pertinence de limiter les recherches à la traduction du russe vers le français et à celle des textes techniques et scientifiques. Mais cela n'intéresse pas nécessairement certains ministères, par exemple, le ministère de la Culture. À l'issue de la réunion, ces deux orientations sont toutefois conservées, notamment en raison de l'intérêt que présente la traduction des textes techniques et scientifiques pour les pays en voie de développement. Ambiguïtés pour les humains/ambiguïtés pour la machine Les mots, les expressions, les syntagmes et les propositions exprimées dans une langue naturelle ont tendance à être interprétables de plusieurs façons différentes. Malgré cela, on remarque que les êtres humains ne butent presque jamais sur des ambiguïtés qu'ils ne perçoivent même que rarement (et difficilement) dans un contexte donné. Pour la machine, en revanche, tous les cas d'homonymies et de polysémie lexicale ou syntaxique donnent lieu à des ambiguïtés. C'est un des problèmes les plus difficiles de l'analyse automatique du langage. Si l'on considère les deux exemples suivants, célèbres cas d'école pour le traitement automatique des langues, deux interprétations sont possibles pour chaque phrase : le pilote ferme la porte le (art., pron.) pilote (nom, verbe) ferme (verbe, nom, adj.) la (art., pron., nom) porte (nom, verbe) interprétation 1 : le (art.) pilote (nom) ferme (verbe) la (art.) porte (nom) interprétation 2: le (art.) pilote (nom) ferme (adj.) la (pron.) porte (verbe) la belle ferme le voile la (art., pron.) belle (nom, adj.) ferme (verbe, adj.) le (art., pron.) voile (verbe, nom) interprétation 1 : la (art.) belle (nom) ferme (verbe) le (art.) voile (nom) interprétation 2 : la (art.) belle (adj.) ferme (nom) le (pron.) voile (verbe) Pour ce type de phrases, le contexte et/ou la prosodie permet de lever l'ambiguïté qui est rarement perçue par les humains. Pour la machine, la seule solution consiste parfois à fournir les deux interprétations. Ambiguïtés de parenthésages Soit l'exemple suivant, utilisé par Maurice Gross dans son rapport critique sur la traduction automatique : la directrice de banque enrhumée. Deux interprétations sont possibles : ((la directrice de banque) enrhumée) (la directrice (de banque enrhumée)) Pour lever l'ambiguïté, M. Gross préconise une analyse linguistique qui opère la distinction animé/inanimé ne permettant le regroupement de « enrhumée » qu'avec un humain à savoir « la directrice ». Ambiguïtés de sens commun Exemple extrait du fameux rapport de Y. Bar-Hillel (1960) contre la traduction automatique : the pen was in the box the box was in the pen La seconde phrase est possible si l'on sait que pen en anglais signifie à la fois crayon et parc à bébé, et qu'on peut la rencontrer dans une phrase telle que: Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. Selon Y. Bar-Hillel, un ordinateur est incapable de résoudre cette ambiguïté qui suppose des connaissances de sens commun, notamment sur les tailles relatives d'un crayon et d'un parc à bébé. Ambiguïté de référence des pronoms Les suites suivantes montrent que pour trouver la référence des pronoms they, la machine doit faire des inférences du type : si quelqu'un est assassiné, il est mort, il faut l'enterrer si quelqu'un est assassiné, il y a un assassin, il faut le retrouver. The men murdered the women. They were caught three days later. The men murdered the women. They were buried three days later. Comme pour l'exemple précédent, la machine doit avoir des connaissances de sens commun. Des systèmes de représentation des connaissances ont été mis au point dans le cadre de l'intelligence artificielle pour tenter de résoudre ces problèmes. A l'heure actuelle, ils sont souvent utilisés dans les systèmes de traduction automatique. Les garden-paths sentences ou phrases buissonnières Ces phrases sont aussi des cas d'école. Elles sont ambiguës pour les humains comme pour l'analyse syntaxique automatique. Dans le processus d'analyse, le parseur se heurte à une impossibilité de choix et doit revenir en arrière : the boat floated clown the river sank le bateau sombra en descendant la rivière the horse raced past the barn fell le cheval tomba en passant près de la grange Le même phénomène existe aussi en français : sur le miroir de l'eau stagnait une couleur pourpre quand il pleure beaucoup le regarde Voir : M. Gross, « Notes sur certains aspects des recherches en linguistique au CNRS », rapport au directeur général du CNRS du 26 septembre 1967 et Y. Bar-Hillel, 1960, « The present Status of Automatic Translation of Languages », in Advances in Computers, vol.1, EC. Alt ed. Academic Press, N.Y., London, 1960, pp. 91-141. 71Limitation des crédits et discussions sur la demande sociale en traduction automatique soulèvent la question cruciale des délais dans lesquels il sera possible d'effectuer les premières expériences. A. Sestier et B. Vauquois ne sont pas d'accord sur ce point : trois ans suffisent pour B. Vauquois, alors que pour A. Sestier, rien n'est possible avant huit ans. Celui-ci laisse entendre qu'il ne pourra pas, avec des délais si courts, continuer à assumer la direction du CETAP. Le directeur du CNRS assure que le CNRS est prêt à jouer le jeu et à continuer de financer le CETA pour moitié et que l'on trouvera les crédits nécessaires de façon que l'affaire se poursuive au moins jusqu'en 1970, date butoir d'A. Sestier. 72Un autre facteur enfin est à prendre en compte dans la démission d'A. Sestier : la publication du rapport Bar-Hillel. Les Français semblent n'avoir eu que tardivement27 connaissance du rapport Bar-Hillel, publié en 1960, à la suite d'une mission d'évaluation des centres de traduction automatique, commanditée en 1958 par la National Science Foundation. Ce rapport présentait de façon très négative la plupart des activités et des résultats des centres de traduction automatique dans le monde et surtout aux États-Unis. Lors du congrès de l'IFIP à Munich en août 1962, où il organisait un symposium intitulé « Modern techniques of language translation », A. Sestier le mentionne comme une chose assez récente, mais la façon dont il en parle laisse prévoir sa décision28. La direction du CNRS n'ignore pas les positions d'Y. Bar-Hillel sur la traduction automatique. Dans un courrier du 10 octobre 1962, J. Coulomb attire l'attention de M. Lejeune sur le texte d'Y. Bar-Hillel dans les actes du congrès de l'IFIP que vient de lui envoyer A. Sestier. 73Finalement, en octobre-1962, A. Sestier donne sa démission du CETAP. Dans le rapport d'activité du CNRS 1961-1962, les raisons de cette démission sont exposées de la façon suivante : « La construction d'une syntaxe pour une langue naturelle est un problème de recherche fondamentale inséparable de celui de la sémantique; ce problème a été abordé prématurément et exigerait, pour être résolu, de nombreuses recherches préliminaires (de psychologie et de théorie des automates, notamment) auxquelles la structure actuelle du CETAP ne se prête pas. » 74Après la dissolution du CETAP, certains de ses membres, comme M. Gross et Y. Gentilhomme, rejoignent le Laboratoire de calcul numérique de l'Institut Blaise-Pascal. Quant à Jacques Perriault, il rejoint la SAD (Section d'analyse documentaire) dirigée par J.-C. Gardin. Le groupe de Nancy devient, en 1969, le CRAL (Centre de recherche et d'applications linguistiques de Nancy), associé au CNRS, qui abandonne les travaux en traduction automatique proprement dits pour des travaux plus généraux en traitement automatique des langues. Ainsi, une des sections du CRAL se consacre au traitement automatique des textes sémitiques, à la paléographie automatique et à l'analyse documentaire automatique. 75Ne reste donc plus que le groupe de Grenoble, qui, tout en continuant à être rattaché à l'Institut Blaise-Pascal, devient laboratoire propre du CNRS en 1963, en gardant le nom de CETA29. À partir de fin 1962, son directeur, B. Vauquois, monte en puissance dans les instances représentatives. En 1963, il est membre de la section 22 du Comité national : « Linguistique générale, langues moderne et littérature comparée ». Puis, en 1969, il sera membre de la section 28 : « Linguistique générale, langues et littératures étrangères ». Dès 1965, il est vice-président de l'ATALA. IL en sera le président de 1966 à 1971. Il sera un des fondateurs, également en 1965, de l'ICCL (International Committee on Computational Linguistics). Conclusion 76Une des spécificités de l'histoire du Centre de Grenoble, c'est qu'il ne semble pas avoir été ébranlé par la crise de 1965, contrecoup de la crise américaine, qui affectera profondément l'ATALA. Le déclin de la traduction automatique, amorcé depuis 1960 aux États-Unis suite à la publication du rapport Bar-Hillel, devient inéluctable avec la publication du rapport de l'ALPAC en 1966 qui mit fin aux subventions des recherches en traduction automatique aux États-Unis et pratiquement dans le monde entier. 77Le CNRS accuse la crise de façon modérée et ne cesse de soutenir le CETA. Selon le rapport de conjoncture du CNRS de 1963-1964, les sections de linguistique du Comité national maintiennent leur soutien prudent à la traduction automatique. La section 23, « Linguistique française et études littéraires », mentionne dans ses recommandations l'intérêt de la linguistique appliquée, dont fait partie la traduction automatique. 78La section de mathématiques appliquées parle d'une phase de reflux, mais précise que les recherches en cours en traduction automatique doivent être poursuivies avec toutes les ressources actuelles, et, qu'à condition d'être menées en profondeur, elles conduiront un jour à des résultats intéressants. La section ne semble pas affectée par la démission d'A. Sestier et encourage la collaboration entre linguistes et logiciens pour mener à bien une « étude minutieuse et patiente des langues naturelles ». Par ailleurs, l'idée de construire une machine dédiée à la traduction est loin d'être abandonnée. La section préconise des études de logique de circuits et d'organes de machine adaptées à des fins de traduction, de même que des études de programmation dans le domaine non numérique visant à la création et à la compilation de langages adaptés. 79Concernant plus spécifiquement les activités du CETA, le conseil scientifique de décembre 1966 recommande de diversifier les domaines d'applications des méthodes élaborées par le centre. La traduction automatique n'est plus à considérer comme le but premier et doit apparaître comme un produit dérivé d'études linguistiques et logiques plus générales. 80Donc, malgré la crise, le CETA tient bon. Ses crédits sont augmentés et ses locaux agrandis30. R. de Possel demande, au nom du conseil scientifique réuni le 15 décembre 1966, les félicitations pour le travail accompli par B. Vauquois. Enfin, la seconde conférence internationale sur le traitement automatique des langues se tient en août 1967 au CETA qui y présente sa première expérience de traduction sur ordinateur (le premier test aura lieu en juin 1967). 81Toutefois, il faut pondérer cette impression de prospérité : le CETA se porte très bien en 1967, mais moins bien en 197131, date à laquelle il sera privé d'une partie de ses forces, chercheurs et moyens, et perd son statut privilégié de laboratoire propre du CNRS. Cela dit, sa reconversion se fait progressivement32, et non brutalement comme aux États-Unis. À cet égard, on peut invoquer le fait que l'instance d'évaluation et le bailleur de fonds qu'est le CNRS assure une certaine stabilité aux équipes en raison de ses caractéristiques propres : présence des intéressés dans les instances d'évaluation, façon dont est prise en compte la demande sociale, évaluation des modèles théoriques et évaluation des résultats. Dans le cas de la traduction automatique, qui doit viser avant tout une production industrielle, les choses sont éminemment ambiguës. On peut d'ailleurs supposer que cette stabilité a permis au CETA, devenu GETA en 1971, de prendre un second souffle et de réaliser dès le début des années 1970 Ariane-78, un système multiniveaux fondé sur la méthode de transfert, considéré comme un des plus importants et des plus influents de l'époque. 82Avec la publication du rapport de l'ALPAC en 1966, la traduction automatique n'a plus eu droit de cité aux États-Unis jusqu'au début des années 1990. Elle ne sera définitivement pas cette science du langage appliquée qu'elle aspirait à devenir et le mythe de la traduction de très bonne qualité (équivalente à la traduction humaine) est bel et bien révolu. 83Pourtant, la traduction automatique a survécu. Elle est, à l'heure actuelle, un secteur important du traitement automatique des langues. Le domaine s'est considérablement modifié au fil des décennies, tant par le développement technologique que par la transformation de la demande en traductions suscitée par la mondialisation de la consommation. Le succès des outils d'aide à la traduction semble avoir finalement permis de conjurer le spectre de l'ALPAC. Mais ce succès passe par un double paradoxe : on n'exige plus des systèmes de traduction automatique de fournir des traductions ; quant aux stations d'aide aux traducteurs, elles n'utilisent les systèmes de traduction automatique, quand ils existent, que comme un outil parmi d'autres. Autrement dit, on en arrive à se demander si l'automatisation de la traduction a encore réellement besoin de la traduction automatique.33 Haut de page Bibliographie En plus des ouvrages et rapports cités en notes, l'auteur a consulté : - Fonds documentaire du CNRS de Gif-sur-Yvette : les rapports d'activité annuels du CNRS (1950-1975) et les rapports de conjoncture du CNRS (1959-1974). - Fonds d'archives du CNRS de Gif-sur-Yvette : dossiers scientifiques CNRS 910024 DPC. - Fonds d'archives du Centre des archives contemporaines de Fontainebleau : archives historiques F 780309 (53) et (54). - Archives de l'ATALA. - Rapports : A. Sestier, « L'automatisation de l'analyse syntaxique », document du CETAP, note n° 13, 19 octobre 1961. Unesco, Report on scientific and technical translating and related problems [WS/073.119], 1953. B. Vauquois, « Étude sur le choix du matériel destiné à la traduction automatique », 13 janvier 1961. - Cahiers pour l'histoire du CNRS (1939-1989). - J.-L. Chiss et Christian Puech (dir.), « La linguistique comme discipline en France », Langue française, n° 117, février 1998. A. Sestier, « La traduction automatique des textes écrits scientifiques et techniques d'un langage dans un autre », in Ingénieurs et techniciens, partie I et II, 1959. Haut de page Documents annexes La machine de Trojanskij (image/jpeg – 154k) Le langage pivot (image/jpeg – 159k) Trois méthodes de traduction automatique (image/jpeg – 84k) Une expérience de traduction "mot à mot" par l'application d'un dictionnaire électronique (méthode directe) (image/jpeg – 149k) Haut de page Notes 1Cf. La Revue pour l'histoire du CNRS, n° 1, novembre 1999. 2Rapport qui interrompit les recherches pour une période allant d'une dizaine d'années en Europe jusqu'à près de vingt-cinq ans aux États-Unis. 3Sur les enjeux de la traduction automatique de la fin des années 1940 à nos jours, voir J. Léon, « La traduction automatique I : les premières tentatives jusqu'au rapport ALPAC », et « La traduction automatique II : développements récents » Handbücher zur Sprachund Kommunikationswissenschaft, Berlin, Éd. Walter de Gruyter and co., volume 3, Histoire des sciences du langage (à paraître). 4Reposant sur une consultation de dictionnaires, une pré et post-édition, et une langue intermédiaire, cette machine était présentée comme une méthode économique de traduction multilingue dans la mesure où chaque traducteur n'était tenu de connaître qu'une seule langue. 5Sur les débuts de la traduction automatique aux États-Unis, en Grande-Bretagne et en U, voir W. I. Hutchins, Machine translation, part, present, future, Ellis Horwood Ltd, 1986; J. Léon, « Les débuts de la traduction automatique en France (1959-1968) : à contretemps ?», Modèles linguistiques, tome XIX, fascicule 2, p. 55-86, 1998 ; « La mécanisation du dictionnaire dans les premières expériences de traduction automatique (1948-1960) », History of Linguistics 1996, vol. II, D. Cram, A. Linn, E. Nowak (dir.), p. 331-340, John Benjamins Publishing Company, 1999, et « Traduction automatique et formalisation du langage. Les tentatives du Cambridge Language Research Unit (1955-1960) », in The History of Linguistics and Grammatical Praxis, P Desmet, L. Jooken, P. Schmitter, P. Swiggers (dir.), Louvain-Paris, Peeters, 2000, p. 369-394 ; S. Archaimbault et J. Léon, « La langue intermédiaire dans la traduction automatique en U (1954-1960). Filiations et modèles », Histoire-Épistémologie-Langage, 1997, p. 19-2 et 105-132. 6« Language and machines. Computers in translation and linguistics », A report by the Automatic Language Processing Advisory Committee (ALPAC), National Academy of Sciences, National Research Council, 1966. 7On ne parlait évidemment pas d'informatique à l'époque, le terme n'étant apparu qu'en 1962 sous la plume de P. Dreyfus (Dictionnaire des mots nouveaux, P. Gilbert, 1972), formé à partir de information et automatique. Il ne fut réellement en usage qu'à la fin des années 1960. 8Henri Boucher, « L'informatique dans la défense », actes du colloque sur l'histoire de l'informatique en France, Grenoble, mai 1988, p. 83-102. 9G. Ramunni, La physique du calcul. Histoire de l'ordinateur, Paris, Hachette, 1989, 287 p. ; « La non-construction du premier calculateur électronique au CNRS (I) et (II) », Micro-bulletin nos 42, décembre 1991 et 43-44-45, février-mars 1992. 10Concernant l'histoire de l'Institut Blaise-Pascal, voir Pierre Mounier-Kuhn, « L'Institut Blaise-Pascal du CNRS de 1946 à 1969 », actes du colloque De Bourbaki à la Machine à Lire — Journée d'hommage à R. de Possel, ENS-Ulm, 16 novembre 1994, p. 13-30. 11G. Ramunni, « La non-construction... », op. cit. 12Sur la situation de la linguistique en France au début des années 1960, voir, entre autres, l'article de J. -C. Chevalier et P. Encrevé, « La création de revues dans les années 1960. Matériaux pour l'histoire récente de la linguistique en France », Langue française, n° 63, et le numéro de Langue française consacré à « La linguistique comme discipline en France » (n° 117). 13M. Lejeune est spécialiste de grec ancien des langues celtiques italiques, et s'est beaucoup intéressé à l'histoire des systèmes d'écriture. 14J. Coulomb, M. Lejeune et É. Delavenay ont été, la même époque, élève à l'École normale supérieure Ulm. 15É Delavenay, Témoignage. D'un village savoyard au village mondial, diffusion Édisud, Aix-en-Provence, 1992. 16J. E. Holmstrom, « Rapport sur les dictionnaires scientifique et techniques multilingues », Paris, Unesco, 1951. 17É. Delavenay et K. Delavenay, Bibliographie de la traduction automatique, Gravenhage, Mouton and co, 1960. 18Sur la création de l'ATALA et sur la biographie de ses membres fondateurs, voir A. Lentin « Naissance et premiers pas de l'ATALA : quelques souvenirs et quelques réflexions », Traitement automatique des langues, 1992, vol. 33, n° 1-2, p. 7-24, et J. Léon, « De la traduction automatique à la linguistique computationnelle. Contribution à une chronologie des années 1959-1965 », Traitement automatique des langues, 1992, vol. 33, n° 1-2, p. 25-44. 19Outre les enjeux purement politiques et militaires, renforcés dans un contexte de guerre froide, qui motivaient les besoins en traduction du russe, il existait également une très grande rivalité scientifique entre Américains et Soviétiques qui stimulait la production de machines à traduire. Les Américains étaient persuadés que les Soviétiques étaient très en avance sur eux sur le plan scientifique, non seulement dans le domaine de l'aérospatiale (le premier Spoutnik date de 1957) mais aussi dans le domaine de la traduction automatique. Cette opinion était partagée par les Français, si l'on en juge par la première version d'une demande de subvention adressée par A. Sestier à l'OTAN en juin 1961 qui se termine par le constat que, bien que l'effort des Soviétiques en matière de traduction automatique soit, de l'avis même des experts américains, encore plus grand que celui des Etats-Unis, on n'a, depuis 1958, que peu de renseignements sur les travaux russes. Une des hypothèses est que « les Soviétiques préparent à l’Occident une surprise spectaculaire, telle, peut-être que l'édition de traductions machine de livres soviétiques ». 20Le CASDEN était déjà en charge de la traduction d'articles scientifiques russes. 21Le comité de direction, présidé par J. Coulomb, directeur du CNRS, comprenait également le doyen Pérès, É. Delavenay, R. de Possel, M. Lejeune, Raymond Cheradame directeur des études de l'École polytechnique, A. Sestier et B. Vauquois. 22R. de Possel va s'attaquer à un des problèmes en amont de la traduction automatique, à savoir la lecture automatique des caractères. Cf. actes du colloque De Bourbaki è la Machine à Lire – Journée d'hommage à R. de Possel, ENS-Ulm, 16 novembre 1994. 23É. Delavenay, La Machine à traduire, Paris, PUF, « Que sais-je? », 1960. 24Il s'agit d'un système permettant d'enregistrer 33 millions de bits sur quatre disques de verre revêtus d'une émulsion photographique, sous forme de carrés rouges, verts, blancs ou noirs, lus à l'aide de tubes à rayons cathodiques et de photomultiplicateurs. 25Une grande partie des officiers engagés dans des activités de recherche ont alors démissionné de l'armée pour rejoindre l'industrie. Nous remercions René Moreau pour cette information. 26A. Sestier, « Justification d'une demande de subvention à l'OTAN », version 1 de juin 1961 ; version 2 du 8 octobre 1961. Il est probable que cette demande a souffert de la détérioration des relations de la France avec l'OTAN. On sait que Ch. de Gaulle manifesta une vive opposition, en décembre 1962, aux accords conclus à Nassau par J. F. Kennedy et Macmillan sur le projet de force multilatérale. Cette opposition aboutira en mars 1966 à un double retrait : des forces françaises soumises à l'autorité de l'OTAN et des forces étrangères qui se trouvaient sur le sol français dans le cadre de l'alliance. 27Pourtant É. Delavenay possédait la première version de ce rapport datant de février 1959 (cf. archives de l'ATALA) 28Nous remercions André Lentin pour cette information. 29Sur l'histoire des réalisations du CETA, voir l'article de Christian Boitet qui prit la direction du GETA, après la disparition de B. Vauquois en 1985, « TA et TAO à Grenoble... 32 ans déjà ! » TAL, vol. 33, n°` 1-2, 1992, p. 45-84. 30Avec un budget d'un million de francs et 20 collaborateurs en 1963, il atteint les 35 personnes début 1965. Ce budget de 1 million sera augmenté en 1966. En 1964, un budget spécial est voté pour la construction du bâtiment du CETA sur le campus de Saint-Martin-d'Hères, bâtiment qui sera inauguré en août 1967. 31Sur ce point et l'impact du rapport de M. Cross au directeur général du CNRS, « Notes sur certains aspects des recherches en linguistique au CNRS », 26 septembre 1967, voir J. Léon, « Les débuts de la traduction automatique en France (1959-1968) : à contretemps ? », Modèles linguistiques, tome XIX, fascicule 2, 1998, p. 55-86. 32Actuellement, le GETA, toujours sous la direction de C. Boitet, poursuit ses travaux sur la traduction assistée par ordinateur, dans le laboratoire CLIPS de l'Institut d'informatique et de mathématiques appliquées de Grenoble. 33Ce point est argumenté dans J. Léon, « De la traduction automatique à l'automatisation de la traduction : parcours historique », in Bulag, n° 25, 2000, p. 5-21. Haut de page Pour citer cet article Référence électronique Jacqueline Léon, « Le CNRS et les débuts de la traduction automatique en France », La revue pour l’histoire du CNRS [En ligne], 6 | 2002, mis en ligne le 05 juillet 2007, consulté le 08 janvier 2019. URL : http://journals.openedition.org/histoire-cnrs/3461 Haut de page Auteur Jacqueline Léon Jacqueline Léon est chargée de recherche au CNRS au Laboratoire d'histoire des théories linguistiques. Haut de page Droits d’auteur Comité pour l’histoire du CNRS Haut de page Sommaire – Document suivant Navigation Index Auteurs Mots-clés Numéros en texte intégral 26 | 2010 Sport, recherche et société 25 | 2010 L’Aventure européenne du CNRS, I 24 | 2009 Soixante-dixième anniversaire du CNRS 23 | 2008 Astrophysique : une science en expansion 22 | 2008 La géopolitique mode d’emploi 21 | 2008 Entre mémoire et oubli 20 | 2008 Aventures et recherches aux pôles 19 | 2007 Neurosciences : essor et enjeux 18 | 2007 Voyages collectifs en géographie 17 | 2007 Objectif biotechs ? 16 | 2007 L’expertise scientifique 15 | 2006 CNRS et Université 14 | 2006 Le patrimoine scientifique 13 | 2005 Regards sur des laboratoires en sciences humaines et sociales 12 | 2005 Les grands équipements scientifiques du CNRS 11 | 2004 Le CNRS au sein du dispositif de recherche français : ses relations avec d’autres organismes 10 | 2004 Penser la pensée. Les sciences cognitives 9 | 2003 Histoire du temps présent 8 | 2003 Aux origines de l’Homme 7 | 2002 La biologie | Menaces sur les sciences sociales vers 1980 6 | 2002 Les années 60 : l’Espace, l’Océan, la Parole 5 | 2001 Des laboratoires à l’étranger 4 | 2001 L’environnement 3 | 2000 Regards sur l’étranger 2 | 2000 Les premiers laboratoires du CNRS 1 | 1999 Le CNRS au temps de Charles de Gaulle Tous les numéros A l’affiche Exposition : « CNRS, la naissance » Tables rondes Les tables rondes du Comité pour l’histoire du CNRS « L’astrophysique, une science en expansion » « La géopolitique mode d’emploi » « Neurosciences : essor et enjeux » « Les experts face à leurs responsabilités » « Le CNRS et les universités : quelle collaboration ? » de La revue en quelques mots Organisation scientifique Contacts et crédits Politiques de publication Syndication Fil des numéros Fil des documents Lettres d’information La Lettre de OpenEdition Journals Affiliations/partenaires Logo Comité pour l'histoire du CNRS OpenEdition Journals ISSN électronique 1955-2408 Plan du site – La revue en quelques mots – Organisation scientifique – Contacts et crédits – Flux de syndication Nous adhérons à OpenEdition Journals – Édité avec Lodel – Accès réservé OpenEdition OpenEdition Books + OpenEdition BooksBooks in the humanities and social sciences + Books + Publishers + Further information OpenEdition Journals + OpenEdition JournalsJournals in the humanities and social sciences + Journals + Further information Calenda + CalendaAcademic announcements + Announcements + Further information Hypotheses + HypothesesResearch blogs + Blogs catalogue s and alerts + Subscribe to the newsletter + Alerts and subscriptionsAlert service OpenEdition Freemium ____________________ #alternate alternate alternate Actualité CommentCaMarche.net Donnez votre avis Choisir un outil traduction automatique en ligne Elegir una herramienta de traducción automática en línea ES Choisir un outil traduction automatique en ligne FR Escolher uma ferramenta de tradução automática online BR Posez votre question De nombreux outils en ligne sont disponibles gratuitement pour traduire des pages web, textes et expressions en plusieurs langues. Dans quel cas les utiliser con Quels traducteurs automatiques sont les plus performants aujourd'hui ? Quelques précautions d'usage et une liste de services disponibles. Avant de choisir un traducteur automatique en ligne Quelle qualité de traduction ? Plusieurs éditeurs de logiciels et fournisseurs de services web proposent des outils gratuits de traduction automatique. Plusieurs éléments à prendre en compte avant d'utiliser ces services : La qualité des traductions fournies varie selon le service, et selon les langues, ces traducteurs sont souvent des versions allégées de services payants plus performants, ils sont limités pour la traduction de documents techniques (ex : notices), bien que les algorithmes se perfectionnent, ils ne se substituent pas à des opérateurs humains (traducteurs professionnels). Dans quels cas utiliser un traducteur automatique en ligne ? Traduction mot à mot (dictionnaire), traduction de textes et de pages web traduction de correspondances professionnelles, compréhension globale d'un texte produit dans une langue nom maîtrisée. Les différents types de traducteurs automatiques en ligne Les dictionnaires en ligne Ils conviennent pour une traduction mot à mot, et pour trouver des exemples d'utilisation d'expressions en contexte. L'un des plus utilisés est wordreference.com qui traduit en 16 langues. Les traducteurs de texte en ligne Ils conviennent pour la traduction de textes ou de pages web : Google Translate : 72 langes traduites depuis le français (et vice versa) Bing Translator : 43 langues traduites depuis le français (et vice versa) Babylon : une trentaine de langues traduites depuis le français (et vice versa) WorldLingo (idem) Systran : 7 langues traduites depuis le français (et vice versa) Autres : Reverso Les traducteurs d'expressions/de phrases Ces outils sont très pratiques : ils permettent de traduire des expressions et groupes de mots d'une phrase en s'appuyant sur une base de données de documents officiels traduits en plusieurs langues. Les traductions sont ainsi très qualitatives. Par exemple : Linguee Vous cherchez un application pour vous faire comprendre à l'étranger ? Pas de panique, utilisez Conversation de voyage Jean-François Pillou Cet article est régulièrement mis à jour par des experts sous la direction de Jean-François Pillou, fondateur de CommentCaMarche et directeur délégué au développement numérique du groupe Figaro. En savoir plus sur l'équipe CCM A voir également Outils de traduction automatique Outil de traduction automatique - Meilleures réponses Traduction automatique - Meilleures réponses Gmail intègre un outil de traduction automatique - Actualités Yammer va intégrer un outil de traduction automatique des messages - Actualités Youtube désactiver traduction automatique - Forum - YouTube Traduction automatique chrome - Conseils pratiques - Navigateurs Google traduction automatique d'un site - Conseils pratiques - Moteurs de recherche [INS: :INS] Article original publié par Carlos Villagómez. Traduit par CommentCaMarche. Dernière mise à jour le 20 janvier 2014 à 18:20 par noctambule28. Ce document intitulé « Choisir un outil traduction automatique en ligne » issu de CommentCaMarche (https://www.commentcamarche.net/) est mis à disposition sous les termes de la licence Creative Commons. Vous pouvez copier, modifier des copies de cette page, dans les conditions fixées par la licence, tant que cette note apparaît clairement. Précédent Tirer parti de la reconnaissance vocale sur son smartphone #alternate alternate alternate alternate alternate alternate Yuqo » La naissance et l’histoire de la traduction automatique Flux des commentaires alternate alternate La naissance et l’histoire de la traduction automatique Hello Yuqo Hello Yuqo L La traduction automatique n’est désormais plus un fantasme de science-fiction. Les systèmes informatiques améliorent radicalement leur compréhension de la nature complexe du langage. Mais ces systèmes sont-ils suffisamment sophistiqués pour dépasser les traducteurs humains ? Reading Time: 5 minutes La traduction automatique est en développement depuis des décennies et, à chaque jour qui passe, elle devient de moins en moins un espoir de science-fiction pour s’approcher un peu plus de la réalité. Comprendre les nuances d’une langue est difficile même pour une personne humaine et il apparaît désormais que c’est la raison pour laquelle la traduction automatisée n’a pu se développer que jusqu’à son état actuel. LES DÉBUTS DE L’HISTOIRE Les développeurs ont rêvé d’ordinateurs qui pourraient rapidement comprendre et traduire les langues depuis que le potentiel d’un tel appareil a été réalisé pour la première fois. Une des conséquences les plus importantes de la création et de l’amélioration des technologies de traduction est qu’elles ouvrent le monde des informatiques au-delà de simples fonctions mathématiques et logiques, vers des relations plus complexes entre les mots et les significations. L’histoire de la traduction automatisée a débuté dans les années 1950. Warren Weaver, de la Fondation Rockfeller, a commencé à combiner le décryptage automatisé et le traitement des langues naturelles, un acte fondateur du concept de traduction par ordinateur, dès 1949. Ces propositions peuvent être trouvées dans son « Memorandum sur la Traduction ». L’histoire de la traduction automatisée a débuté dans les années 1950. De manière assez fascinante, il n’a pas fallu attendre longtemps avant que des projets de traduction par ordinateur soient lancés. L’équipe de recherche ayant fondé l’expérience Georgetown-IBM a fait la démonstration en 1954 d’une machine qui pouvait traduire 250 mots du russe à l’anglais. DÉVELOPPEMENT ACTUEL On pensait alors que la traduction automatique allait rapidement résoudre un grand nombre de problèmes autour des barrières de communication et beaucoup de traducteurs se sont mis à craindre pour leur emploi. Cependant, les avancées ont fini par stopper avant de prendre leur envol, en raison des subtiles nuances des langues que les ordinateurs ne pouvaient tout simplement pas saisir. Peu importe la langue, les mots ont souvent de multiples significations ou connotations. Le cerveau humain est tout simplement mieux équipé qu’un ordinateur pour accéder au cadre complexe du sens et de la syntaxe. En 1964, l’Automatic Language Processing Advisory Committee (ALPAC) américain a rapporté que la traduction automatique ne méritait pas les ressources ou les efforts consacrés à son développement. 1970-1990 Tous les pays n’ont pas été du même avis que l’ALPAC. Dans des années 1970, le Canada a développé le système METEO, qui traduisait les prévisions météorologiques de l’anglais vers le français. C’était un programme simple qui pouvait traduire 80 000 mots par jour. Le programme était suffisamment réussi pour être utilisé jusque dans les années 2000 avant d’avoir besoin d’une mise à jour du système. L’Institut Français du Textile a utilisé la traduction automatisée pour convertir des abstracts du français à l’anglais, à l’allemand et à l’espagnol. À la même époque, Xerox a utilisé son propre système pour traduire des manuels techniques. Les deux ont été utilisés avec succès dès les années 1970, mais la traduction automatique ne faisait qu’effleurer la surface en traduisant des documents techniques. Dans les années 1980, on s’est plongé dans le développement de la technologie des mémoires de traduction, ce qui a été le début du dépassement des problèmes posés par la communication verbale nuancée. Mais les systèmes ont continué à faire face aux mêmes écueils en essayant de convertir un texte dans une nouvelle langue sans perdre de sens. 2000 En raison de la création d’Internet et de toutes les opportunités que cela avait ouvert, Franz-Josef Och a gagné une compétition de vitesse de traduction automatisée en 2003 et il est devenu chef du Développement Traduction chez Google. En 2012, Google a annoncé que son programme Google Translate traduisait suffisamment de texte pour remplir un million de livres par jour. Le Japon est également en pointe de la révolution de la traduction automatisée en créant des traductions parole à parole pour les téléphones mobiles qui fonctionnent en anglais, en japonais et en chinois. C’est le résultat d’un investissement en temps et en argent pour le développement de systèmes informatiques qui modélisent un réseau neural, au lieu de fonctions à base de mémoire. C’est ainsi que Google a annoncé en 2016 que l’implémentation d’une approche de réseau neural améliorait la clarté sur Google Translate, en éliminant beaucoup de ses imprécisions. Ils l’ont appelé le système Google Neural Machine Translation (NMT). Ce système a commencé à traduire des paires de langues qu’on ne lui avait pas appris. Les programmeurs ont appris au système la traduction de l’anglais au portugais, ainsi que de l’anglais à l’espagnol. Le système s’est alors mis à traduire le portugais et l’espagnol, alors que cette paire de langues ne lui avait pas été assignée. FUTURES AVANCÉES On pensait autrefois que le temps était enfin venu et que l’on allait voir les traductions automatiques pouvoir dépasser leurs homologues humains. En 2017, la Cyber Université de Sejong et l’Association Internationale d’Interprétation et de Traduction de Corée ont mis en compétition quatre humains et des systèmes de traduction automatiques de pointe. Les machines ont traduit le texte plus vite que les humains, sans l’ombre d’un doute, mais elles ne pouvaient toujours pas rivaliser avec l’esprit humain pour ce qui est des nuances et de la précision de la traduction. L’humanité rêve de la vitesse et de la facilité promise par une traduction automatique fiable et précise depuis bien avant les années 1950. L’idée séduisante d’un mode de communication partagé dans le monde entier a encore un long chemin à faire. Créer un ordinateur qui pense plus comme un humain ouvrira la voie à un monde de possibilités, au-delà de la simple communication. La technologie a avancé bien plus loin que la simple utilisation d’une machine pour traiter des nombres – elle unit le monde toujours plus étroitement à chaque année qui passe. Mais pour le moment, vous feriez bien mieux de vous en tenir à des traducteurs humains pour les textes importants. IFRAME: https://www.youtube.com/embed/_GdSC1Z1Kzs Partager Partagé Vous pourriez aussi aimer : 6 choses à prendre en compte avant de traduire votre site web En Savoir Plus 6 avril 2018 à 08:04 7 minutes de lecture 6 choses à prendre en compte avant de traduire votre site web Toute entreprise rêve d’avoir une solide présence internationale. Dans cet article, nous explorons 6 choses à prendre en compte avant de préparer votre entreprise en ligne pour une croissance internationale. Steven Mike Voser Steven Mike Voser La langue du succès : comment la localisation a aidé ces 3 entreprises à dominer les marchés étrangers En Savoir Plus 8 septembre 2017 à 01:09 7 minutes de lecture La langue du succès : comment la localisation a aidé ces 3 entreprises à dominer les marchés étrangers Vous cherchez à lancer votre entreprise sur la scène internationale ? Ici, vous pouvez savoir plus sur la localisation et comment elle a aidé 3 entreprises à dominer le marché global. Steven Mike Voser Steven Mike Voser Le top des langues pour la traduction des applis En Savoir Plus 7 mai 2018 à 08:05 5 minutes de lecture Le top des langues pour la traduction des applis Sur la place de marché globale du 21ème siècle, il n'existe plus que peu d'applications uniquement en anglais. Mais même avec l'automatisation de la technologie, la traduction reste une compétence importante à laquelle les développeurs et designers doivent faire attention pour le succès de leurs applis.